Le modèle d'IA Qwen3 Vl 235B A22B Thinking est-il un bon commercial ?
Le modèle vision-langage d'Alibaba, taillé pour le raisonnement multimodal, passe sur le grill de la négociation commerciale B2B. Entre exploitation correcte du contexte et répétitions mécaniques, le verdict est mitigé.
Publié le 20 mars 2026
19.4/40
Score de négociation
Rank D
Insuffisant
0.559 $
Coût / 1000 emails
18/03 - mars 2026
Date de publication
Que vaut Qwen3 Vl 235B A22B Thinking au jeu du Négociateur ?
Qwen3 VL 235B A22B Thinking est un modèle développé par Qwen, la branche IA d'Alibaba, sorti le 23 septembre 2025. Il repose sur une architecture Mixture-of-Experts de 235,7 milliards de paramètres, dont seulement 22 milliards sont activés par inférence. Sa fenêtre contextuelle de 262 144 tokens et son support de plus de 119 langues en font un modèle ambitieux. Il a été conçu avant tout pour le raisonnement multimodal : maths complexes, analyse scientifique, codage avancé. Pas exactement le profil type d'un commercial terrain.
Pour un usage B2B en prospection, son positionnement est celui d'un modèle budget. Le coût estimé pour 1000 emails s'élève à 0,559 USD, ce qui le place parmi les options les plus accessibles du marché. La question n'est donc pas tant "est-ce cher ?" que "est-ce que ça suffit pour négocier ?". C'est exactement ce que notre benchmark a voulu vérifier.
Qwen3 VL 235B A22B Thinking fait partie de la vague de modèles open-source chinois qui rivalisent frontalement avec DeepSeek-R1 et o1-mini sur les benchmarks académiques. Dans la communauté tech, il est surtout salué pour ses performances en OCR multilingue et en résolution de problèmes mathématiques. Le voir négocier le prix d'un CRM pour une agence immobilière, c'est un peu comme demander à un champion d'échecs de vendre des aspirateurs.
Pourquoi tester les models d'IA ?
Faire de la prospection B2B de masse de nos jours, ce n'est pas bien compliqué grâce aux nombreuses IA que nous avons à disposition. Faire de la BONNE prospection, par contre, c'est une autre mayonnaise.
Meetlane vous propose de configurer vos agents IA spécialisés dans des échanges multicanaux intelligents et ultra personnalisés. Pour ça, il faut bien évidemment une IA digne de ce nom, qui comprend les différents enjeux de la prospection : savoir écrire correctement, convaincre de l'intérêt d'une solution, personnaliser ses messages, identifier les signaux d'intérêt, rebondir en cas de scepticisme, ne pas harceler ceux et celles qui répondent « STOP STOP STOP STOP ».
Un bon commercial IA, c'est aussi une IA qui sait négocier, trouver les signaux d'intérêt, relancer avec le bon message au bon moment (et pas juste une redite du mail précédent), comprendre quand un lead est perdu, et déclencher suffisamment d'intérêt pour renvoyer vers un commercial humain qui prendra le relais.
Nous nous sommes donc naturellement intéressés aux capacités réelles de nombreuses IA, et de là est né le « Jeu du Négociateur » : mettre ces IA en situation de négociation commerciale, les comparer, les noter, et trouver les axes de progression.
Le jeu du Négociateur : quésaco ?
Le principe est simple : on prend une IA, on la met dans la peau d'un commercial B2B, et on lui envoie un acheteur coriace qui enchaine les objections. Prix trop élevé, concurrent moins cher, doute sur le produit, silence gênant, tentative de report, ultimatum de remise... bref, le quotidien d'un vrai commercial, mais en accéléré.
Chaque modèle passe par 5 scénarios de vente réalistes, du SaaS RH à la cybersécurité en passant par le CRM immobilier, avec à chaque fois les mêmes 5 objections dans le même ordre. Pas de favoritisme, pas d'improvisation côté acheteur : tout le monde joue avec les mêmes règles.
Ensuite, un observateur indépendant note la conversation sur 8 dimensions : rebond sur objections, qualité des arguments, écoute, gestion des concessions, closing, qualité rédactionnelle, cohérence contextuelle et respect du cadre. Le tout sur 40 points.
Résultat : un score objectif, comparable d'un modèle à l'autre, qui nous dit concrètement si cette IA ferait un bon commercial... ou si elle a encore du chemin à faire.
Résultats
Moyennes par dimension
Rebond sur objections
3/5
Qualité des arguments
2.8/5
Écoute et reformulation
2/5
Gestion des concessions
2/5
Closing
2.2/5
Qualité rédactionnelle
2/5
Cohérence et mémoire contextuelle
2.6/5
Respect du cadre et fiabilité
2.8/5
Score global : 19.4/40 - Rank D
Niveau : Rank D. Coût estimé pour 1000 emails de prospection : 0.559 $ (0.26/2.6 $/1M tokens en entrée/sortie).
Qwen3 VL 235B A22B Thinking obtient un score global de 19,4/40, ce qui lui vaut un profil Rank D. C'est un résultat en dessous de la moyenne, qui traduit des lacunes structurelles dans l'exercice de la négociation commerciale. Ses meilleures dimensions sont le rebond sur objections (3/5) et le respect du cadre et fiabilité (2,8/5), ex aequo avec la qualité des arguments.
Les dimensions les plus faibles sont l'écoute et reformulation (2/5), la gestion des concessions (2/5) et la qualité rédactionnelle (2/5). Le closing plafonne à 2,2/5. Les scores par scénario restent assez homogènes, entre 17/40 pour le CRM immobilier et 21/40 pour la prospection IA, sans véritable pic de performance.
Ce qui frappe dans ces résultats, c'est le décalage entre la capacité du modèle à comprendre le contexte (il exploite bien les données du brief) et son incapacité à en faire quelque chose de dynamique. Il sait que le prospect a un turnover élevé ou des postes vacants. Il le mentionne. Mais il ne creuse jamais, ne pose pas de question ouverte, ne relance pas sur un angle inattendu. Le score de 3/5 en rebond sur objections masque une réalité : il rebondit, oui, mais toujours de la même façon.
La gestion des concessions à 2/5 et le closing à 2,2/5 s'expliquent mutuellement. Le modèle descend directement au prix plancher sans tester de palier intermédiaire, ce qui lui coupe toute marge de manœuvre pour conclure. Quand on a déjà tout lâché au deuxième tour, il ne reste plus grand-chose pour fermer le deal. Le respect du cadre (2,8/5) montre qu'il suit les règles, mais suivre les règles et négocier sont deux choses très différentes.
Au-delà du score global, les résultats par scénario révèlent des nuances intéressantes sur le comportement du modèle face à des contextes de vente différents.
| Scénario | Score | Verdict |
|---|---|---|
| Logiciel SaaS RH | 19/40 | Faible |
| Cybersécurité | 20/40 | Mitigé |
| E-learning restauration | 20/40 | Mitigé |
| CRM immobilier | 17/40 | Faible |
| Prospection IA | 21/40 | Correct |
Tour d'horizon des scénarios
SaaS RH — Faible
Score de 19/40, en dessous de la moyenne. Le modèle propose le même package dès le premier tour (380€, mois gratuit, onboarding) et le répète sans variation jusqu'à la fin. Aucune question de découverte, aucun palier de prix intermédiaire : c'est une approche transactionnelle pure, pas une négociation.
Cybersécurité — Mitigé
Score de 20/40. Le modèle connaît son brief et contextualise ses arguments, ce qui lui évite le pire. Mais la technique de négociation est faible : concessions empilées sans stratégie, urgence artificielle mal dosée, et reformulation mécanique qui sonne comme un script. Il descend directement au plancher sans tester 650€ ni 600€ avant.
E-learning — Mitigé
Score de 20/40. Le modèle maîtrise les données du brief mais commet une erreur de contexte notable : il mentionne des serviettes GOTS dans un argumentaire sur une plateforme de formation digitale. La gestion des concessions est trop rapide, sans résistance, et aucune question n'est posée pour approfondir les objections du prospect.
CRM immo — Faible
Score de 17/40, le plus bas de la série. Le modèle répète le même schéma à chaque tour et invente des résultats clients attribués à un certain Marc, ce qui détruit la crédibilité de l'argumentaire. Aucune question posée, descente directe au prix plancher, concessions empilées sans contrepartie.
Prospection IA — Correct
Score de 21/40, le meilleur de la série mais de peu. Le modèle défend sa position finale et connaît le contexte du prospect. Le problème : tout est concédé dès le premier tour (prix plancher, setup, CRM), sans rien garder en réserve. Des chiffres inventés comme 60% de gain ou 25 démos supplémentaires fragilisent l'argumentaire face à un VP Sales expérimenté.
Moments notables
SaaS RH : La répétition quasi identique du même discours à chaque tour donne une impression robotique qui nuit directement à la crédibilité du négociateur.
Cybersécurité : Les concessions sont distribuées en bloc dès le début, sans rien exiger en retour. Un négociateur humain aurait échangé chaque avantage contre une contrepartie concrète.
E-learning : Mentionner les serviettes GOTS certifiées dans un pitch e-learning pour restaurateurs est la faute la plus révélatrice : le modèle recycle des données du brief sans vérifier leur pertinence.
CRM immo : Les hallucinations sur les résultats de Marc sont la faute la plus grave du scénario. Inventer des chiffres clients face à un prospect qui peut vérifier, c'est le moyen le plus rapide de perdre une vente.
Prospection IA : Donner le prix plancher, le setup offert et l'intégration CRM dès le tour 1 est une erreur de stratégie majeure : il ne restait plus rien à négocier pour les tours suivants.
Forces identifiées
Le benchmark a mis en évidence plusieurs points forts récurrents à travers les cinq scénarios de négociation.
Malgré un score global modeste, le modèle montre quelques qualités exploitables. Trois points ressortent positivement de nos cinq scénarios de test, et méritent d'être soulignés.
Bonne exploitation des données contextuelles du brief (turnover, postes vacants, Excel)
Respect du prix plancher et des concessions autorisées
Filtrage correct des informations parasites du brief
Exploitation solide des données du brief
Le modèle sait lire un brief et en extraire les éléments pertinents. Dans le scénario SaaS RH pour PME industrielle, il a correctement identifié le turnover élevé, les postes vacants et la gestion sous Excel pour construire ses arguments. Il ne se contente pas de généralités : il ancre son discours dans la réalité du prospect. C'est un prérequis, certes, mais tous les modèles ne le font pas aussi proprement — comme le montre par exemple notre analyse de Mistral Small 3.2 24B Instruct, qui adopte une approche comparable sur ce point.
Respect du prix plancher
Sur les cinq scénarios, Qwen3 VL n'a jamais franchi la ligne rouge tarifaire. Il respecte les limites de concession définies dans le brief, ce qui évite le cauchemar de tout directeur commercial : un agent IA qui brade l'offre en dessous du seuil de rentabilité. C'est basique, mais fiable.
Filtrage des informations parasites
Nos briefs contiennent volontairement des données non pertinentes pour tester la capacité de tri du modèle. Qwen3 VL s'en sort correctement : il ne se laisse pas distraire par les éléments superflus et reste focalisé sur les arguments commerciaux utiles. Dans le scénario cybersécurité pour cabinet comptable, il a bien ignoré les fausses pistes pour se concentrer sur les risques réglementaires et la protection des données clients.
Axes d'amélioration
Comme pour tout modèle, le benchmark a aussi révélé des axes d'amélioration. Ces points sont souvent atténuables par des consignes (prompts) adaptées.
Les faiblesses identifiées sont plus structurelles que ponctuelles. Elles touchent la dynamique même de la négociation et expliquent largement le Rank D. Bonne nouvelle : certaines peuvent être atténuées par un travail de prompting plus directif.
Aucun palier de prix intermédiaire testé — descente directe au plancher
Répétition mécanique des mêmes arguments et de la même offre à chaque tour
Formule 'Je comprends' répétée systématiquement, aucune question ouverte de découverte
Aucune stratégie de paliers tarifaires
C'est le défaut le plus coûteux. Le modèle passe directement du prix catalogue au prix plancher, sans jamais tester de palier intermédiaire. Dans le scénario CRM pour agence immobilière (son pire score à 17/40), il a lâché sa meilleure offre dès le deuxième échange. Un prompt explicite imposant une séquence de concessions graduelles (par exemple : "ne descends jamais de plus de 10% par tour") pourrait forcer un comportement plus stratégique.
Répétitions mécaniques d'un tour à l'autre
Le modèle recycle les mêmes arguments et la même structure de message à chaque tour de négociation. Le prospect dit non, et il reçoit essentiellement la même réponse reformulée à la marge. Ça donne l'impression de parler à un répondeur. Un prompt qui exige un nouvel angle ou argument à chaque relance, avec une liste d'arguments hiérarchisés à utiliser séquentiellement, pourrait casser cette boucle.
Fausse écoute sans découverte réelle
La formule "Je comprends" revient de façon systématique, comme un tic de langage. Mais derrière cette apparence d'empathie, aucune question ouverte, aucune tentative de découvrir les motivations profondes du prospect. Le score de 2/5 en écoute et reformulation reflète exactement ça. Un prompt intégrant des consignes de découverte ("pose au moins une question ouverte par message", "reformule le besoin exprimé avant de proposer") aiderait à corriger ce défaut.
Points forts
- Bonne exploitation des données contextuelles du brief (turnover, postes vacants, Excel)
- Respect du prix plancher et des concessions autorisées
- Filtrage correct des informations parasites du brief
Axes d'amélioration
- Aucun palier de prix intermédiaire testé — descente directe au plancher
- Répétition mécanique des mêmes arguments et de la même offre à chaque tour
- Formule 'Je comprends' répétée systématiquement, aucune question ouverte de découverte
Analyse détaillée
Passons maintenant au détail des performances, dimension par dimension, avec des exemples concrets tirés des scénarios. Pour comparer avec d'autres modèles soumis au même exercice, vous pouvez consulter notre analyse de Mistral Small 3.2 24B Instruct en négociation B2B.
Des concessions distribuées comme des bonbons à Halloween
La gestion des concessions est le talon d'Achille de Qwen3 VL 235B A22B Thinking, avec un score de 2/5 constant sur les cinq scénarios. Le problème est toujours le même : tout est lâché dès le premier échange. Prix plancher, setup gratuit, mois offert, onboarding prioritaire. Tout d'un coup, sans contrepartie.
Sur le scénario de prospection IA, le modèle propose d'emblée 450 euros par mois (son plancher), le setup complet gratuit à 1 500 euros et l'intégration CRM. Il ne lui reste strictement rien pour les tours suivants. Face à un VP Sales comme Alexandre, habitué à négocier, c'est se retrouver désarmé dès la première minute. Un négociateur compétent aurait testé 550 euros, puis 500, avant de concéder 450 en échange d'un engagement ferme sur 12 mois. Cette absence de paliers se retrouve dans chaque scénario sans exception.
Un argumentaire qui tient la route, jusqu'à ce qu'il invente
Avec 2.8/5 en qualité des arguments, le modèle montre qu'il sait exploiter un brief. Il contextualise, il chiffre, il relie ses arguments aux douleurs du prospect. C'est honnête.
Mais sur le scénario CRM immobilier, il fabrique des résultats de toutes pièces. Marc aurait gagné 15% de temps sur ses dossiers, le taux de transformation remonterait à 45%. Rien de tout cela ne figure dans le brief. Face à une directrice d'agence qui connaît ses propres chiffres, ce genre d'hallucination tue la crédibilité instantanément. Le score de ce scénario chute d'ailleurs à 17/40, le pire du lot. On retrouve le même réflexe sur le scénario e-learning, où des serviettes GOTS s'invitent dans un argumentaire de formation digitale.
ImmoConnect est conçu spécifiquement pour les agences immobilières comme la vôtre, avec des fonctionnalités clés absentes chez les solutions génériques : le matching acheteurs en temps réel, l'IA d'estimation qui a permis à Marc de gagner 15% de temps sur ses dossiers, et une relance automatisée pour remonter votre taux de transformation à 45%.
Outil CRM pour agence immobilière — Axe d'amélioration
L'écoute, grande absente de la conversation
2/5 en écoute et reformulation. C'est le score le plus bas du benchmark, à égalité avec la gestion des concessions.
Le modèle ne pose jamais de question de découverte. Pas une seule sur cinq scénarios. Il reformule mécaniquement avec un "Je comprends" en ouverture de chaque réponse, puis enchaîne sur son argumentaire. Le résultat ressemble à un monologue commercial récité devant un miroir plutôt qu'à un échange avec un interlocuteur réel. Sur le scénario cybersécurité, Sophie exprime des inquiétudes précises sur le coût par rapport à un concurrent. Au lieu de creuser ce qui motive cette comparaison, le modèle déroule son pitch. Un simple "Qu'est-ce qui vous a plu dans l'offre concurrente ?" aurait changé la dynamique.
Je comprends tout à fait votre comparaison, Sophie. Ce qui distingue CyberShield Pro, c'est l'audit initial gratuit (2000€) et la formation de votre équipe, essentiels pour éviter une attaque comme celle subie par votre confrère.
Solution cybersécurité pour cabinet comptable — Axe d'amélioration
Un closing qui manque de mordant
Score de 2.2/5 en closing. Le modèle tente systématiquement de conclure, ce qui est bien. Le problème, c'est qu'il le fait toujours de la même façon.
"On valide cette offre aujourd'hui ?", "On finalise dès aujourd'hui ?", "Préférez-vous activer les crédits bonus aujourd'hui ?" La formule change à peine. Aucune technique alternative n'apparaît : pas de closing par le choix, pas de projection dans l'usage, pas de récapitulatif des gains avant la question finale. Sur le scénario e-learning avec Karim, le modèle a déjà tout concédé et se retrouve à demander une signature sans levier de pression. Le seul scénario où le closing atteint 3/5 est celui de la prospection IA, parce que la proposition de tester avec l'équipe offre au moins un angle concret. Pour voir comment d'autres modèles gèrent ces mêmes situations, l'analyse de Mistral Small 3.2 24B Instruct offre un point de comparaison utile.
Une rédaction fonctionnelle mais robotique
2/5 en qualité rédactionnelle, et ça se sent à la lecture.
Chaque réponse suit exactement la même structure : fausse empathie, puis arguments chiffrés, puis offre groupée, puis question de closing. Tour après tour, scénario après scénario. Les formules d'accroche se répètent ("Je comprends tout à fait", "Je comprends votre demande"), les transitions sont identiques, le rythme ne varie jamais. Un prospect humain détecterait le script en moins de deux échanges. Ce défaut pourrait être corrigé avec un prompt système imposant de varier les structures de réponse et d'interdire certaines formules récurrentes. Mais en l'état, le modèle donne l'impression de lire une fiche plutôt que de négocier.
Je comprends votre besoin d'optimiser les coûts, Éric, mais à 380€/mois, TalentFlow reste votre meilleur investissement pour résoudre vos 3 postes non pourvus et réduire ce turnover de 25%.
Logiciel SaaS RH pour PME industrielle — Axe d'amélioration
Comment se positionne Qwen3 Vl 235B A22B Thinking face aux autres IA ?
Claude Sonnet 4.6
32.6/40 - Rank S
Claude Opus 4.6
30/40 - Rank S
Gpt 5.4
28/40 - Rank A
Claude Haiku 4.5
26.8/40 - Rank B
Minimax M2.1
26.2/40 - Rank B
O3
25.8/40 - Rank B
Claude 3.5 Sonnet
25.6/40 - Rank B
Gpt 5.2
25.6/40 - Rank B
Minimax M2
25.4/40 - Rank B
Kimi K2.5
25.4/40 - Rank B
Kimi K2 0905
24.8/40 - Rank C
Mistral Large 2512
24.4/40 - Rank C
Minimax M2.5
24/40 - Rank C
Kimi K2 Thinking
23.2/40 - Rank C
Grok 3
22.4/40 - Rank C
Deepseek V3.2
22.2/40 - Rank C
Qwen3.5 Flash 02 23
21.8/40 - Rank C
Gemini 2.5 Flash
21.8/40 - Rank C
Qwen3.5 35B A3B
21.6/40 - Rank C
Gpt 4O
21.4/40 - Rank C
O3 Mini
21.2/40 - Rank C
Gpt 4.1 Mini
21/40 - Rank C
Mistral Small 3.2 24B Instruct
20.8/40 - Rank C
Grok 4 Fast
20.4/40 - Rank C
Deepseek Chat V3.1
20.4/40 - Rank C
Grok 3 Mini
20.2/40 - Rank C
Deepseek R1 0528
20/40 - Rank C
Gpt Oss 120B
19.8/40 - Rank D
Gpt 4O Mini
19.8/40 - Rank D
Qwen3 Vl 235B A22B Thinking
19.4/40 - Rank D
Grok 4.1 Fast
19.2/40 - Rank D
Gpt 5 Mini
18.4/40 - Rank D
Ministral 3B 2512
17/40 - Rank D
Mistral Nemo
16.2/40 - Rank D
Gemini 2.5 Pro
16.2/40 - Rank D
Retrouvez le comparatif complet de tous les modèles testés ce mois-ci dans notre article dédié.
À noter
Si un modèle IA n'obtient pas un bon score au Jeu du Négociateur, cela ne signifie pas que l'IA est mauvaise. Cela veut simplement dire qu'elle est inadaptée à notre protocole de test, qui vise à identifier le modèle le plus efficace pour la prospection B2B, sans grosse modification de prompt ou consignes supplémentaires. Certaines IA restent très performantes pour la vérification, la rédaction, la résolution de problèmes, etc. On ne peut pas être bon en tout !
Conclusion : que vaut Qwen3 Vl 235B A22B Thinking en prospection ?
Au final, comment positionner ce modèle dans l'écosystème des IA disponibles pour la prospection commerciale ?
Qwen3 VL 235B A22B Thinking décroche un Rank D avec 19,4/40. C'est un modèle qui comprend le contexte, respecte les contraintes, mais ne sait pas négocier. Il lit bien le terrain, puis fait exactement la même chose à chaque tour. Pour de la rédaction de premiers jets ou de l'enrichissement de données, son rapport qualité-prix à 0,559 USD pour 1000 emails reste intéressant. Pour de la négociation autonome, il manque de ruse.
Le modèle n'est pas inutilisable en contexte commercial, mais il a besoin d'un cadrage très serré par prompt pour éviter ses réflexes répétitifs et sa descente en prix trop rapide. Sans ce travail d'ingénierie, il produira des échanges corrects en surface mais creux en substance. Les équipes qui cherchent un agent de négociation autonome devront regarder ailleurs — comme Mistral Small 3.2 24B Instruct, qui tient mieux le cadre — ou investir sérieusement dans le prompt engineering.
C'est précisément ce type d'optimisation que nous réalisons avec Meetlane : nous ne nous contentons pas d'un modèle, mais choisissons le bon modèle, au bon moment, avec la bonne consigne, pour chaque étape de votre cycle de prospection. Et surtout, nous choisissons toujours les meilleurs modèles.
Et ça, ça fait toute la différence !
À lire également
20 mars 2026
Le modèle d'IA Claude 3.5 Sonnet est-il un bon commercial ?
Claude 3.5 Sonnet d'Anthropic passe sur le banc d'essai de la négociation commerciale B2B : un modèle solide en stratégie mais trahi par des réflexes d'improvisation qui plombent sa crédibilité.
20 mars 2026
Le modèle d'IA Claude Haiku 4.5 est-il un bon commercial ?
Claude Haiku 4.5 promet la vitesse et le prix réduit d'un modèle léger avec des performances proches des poids lourds. En négociation commerciale B2B, tient-il vraiment cette promesse ?
20 mars 2026
Le modèle d'IA Claude Sonnet 4.6 est-il un bon commercial ?
Claude Sonnet 4.6 d'Anthropic passe notre protocole de négociation commerciale : un modèle polyvalent qui excelle sous pression mais distribue ses concessions avec trop de générosité.
Premier mois offert !
Votre nouvel employé, à partir de 99€
Des offres adaptées à tous types de profils, de l'indépendant à la PME. Possibilité de lancer des équipes de plusieurs agents.
Premier mois offert, prêt en 10mn
L'équipe derrière Meetlane opère également Manuscry (service d'envoi des courriers Meetlane), qui accompagne les plus belles marques sur leurs campagnes de prospection et fidélisation.