L’IA multimodale vient de franchir un nouveau cap, et cette fois, la révolution ne vient pas de la Silicon Valley. Alors que le monde a les yeux rivés sur les mastodontes américains, Baidu déploie une arme secrète : un modèle capable de raisonner visuellement comme un humain. Imaginez une IA qui ne se contente pas de « voir » des pixels, mais qui s’arrête pour réfléchir, zoomer et analyser avant de répondre. C’est la promesse d’ERNIE-4.5-VL-28B, une prouesse technique qui réussit l’impossible : offrir des performances de niveau « flagship » dans un corps ultra-compact. Est-ce la fin de la domination des modèles lourds et coûteux ?

Une architecture hybride : La puissance du « MoE » démocratisée
Au cœur de cette annonce se trouve une architecture technique fascinante : le Mixture-of-Experts (MoE). Contrairement aux modèles monolithiques classiques qui activent tous leurs neurones pour chaque tâche, ERNIE-4.5-VL-28B adopte une approche chirurgicale. Bien qu’il possède un total impressionnant de 28 milliards de paramètres, il n’en active que 3 milliards (3B) par token généré.
Cette distinction est cruciale pour vous. Elle signifie que vous obtenez la « culture générale » et la capacité de raisonnement d’un modèle massif, mais avec la vitesse d’exécution et l’empreinte mémoire d’un petit modèle portable. Baidu appelle cette configuration « A3B » (Active 3 Billion), une stratégie qui permet de réduire drastiquement les coûts d’inférence sans sacrifier la qualité des réponses. C’est une réponse directe aux besoins croissants des développeurs qui cherchent à intégrer l’IA en local, loin des serveurs cloud énergivores.
« Thinking with Images » : Quand l’IA apprend à observer
La véritable rupture d’ERNIE-4.5 ne réside pas seulement dans sa taille, mais dans sa méthode cognitive. La variante « Thinking » du modèle introduit un concept novateur : le raisonnement visuel en « Système 2 ». En psychologie cognitive, le Système 2 désigne une pensée lente, analytique et délibérée.
Concrètement, comment cela se traduit-il ?
- Exploration dynamique : Le modèle ne traite pas l’image en un bloc statique. Il est capable de « zoomer » mentalement et de balayer l’image pour saisir des détails microscopiques que d’autres IA ignoreraient.
- Raisonnement étape par étape : Face à un graphique complexe ou une scène industrielle, ERNIE décompose le problème. Il analyse d’abord la structure globale, identifie les composants clés, puis synthétise l’information.
Cette capacité de « réflexion » avant la génération de texte permet de réduire considérablement les hallucinations visuelles, un fléau courant chez ses concurrents directs.
Des performances qui bousculent la hiérarchie mondiale
Vous pourriez penser qu’un modèle activant seulement 3 milliards de paramètres ne peut pas rivaliser avec les géants comme GPT-4o ou Gemini 2.5 Pro. Pourtant, les benchmarks publiés racontent une autre histoire. Grâce à une phase de « mid-training » intensive sur des données de raisonnement visuel de haute qualité, ERNIE-4.5-VL-Thinking affiche des résultats surprenants.
Dans les tâches de résolution de problèmes STEM (Science, Technology, Engineering, Math) à partir de photos, le modèle démontre une précision quasi humaine. Plus impressionnant encore, il excelle dans l’analyse de graphiques financiers et statistiques, surpassant souvent des modèles dix fois plus lourds. Baidu a utilisé l’apprentissage par renforcement à grande échelle pour affiner ces capacités, prouvant que l’optimisation des données prévaut désormais sur la simple course à la taille.
L’Open Source : Une aubaine pour l’industrie et les développeurs
C’est ici que l’annonce devient particulièrement stratégique pour l’écosystème IA français et européen. Baidu a choisi de publier ce modèle sous licence Apache 2.0, permettant une utilisation commerciale libre.
Pour les entreprises, cela ouvre des portes immenses :
- Déploiement local : Avec une quantification en 4-bit, le modèle ne nécessite qu’environ 14 Go de VRAM. En 2-bit, il peut même tourner sur des cartes graphiques grand public avec seulement 7 Go de mémoire.
- Intégration industrielle : Le modèle excelle dans le « Visual Grounding » (la capacité de localiser précisément des objets dans une image). Une usine peut ainsi l’utiliser pour détecter des défauts sur une chaîne de production ou lire des étiquettes d’avertissement sans envoyer de données sensibles dans le cloud.
Vous pouvez consulter les détails techniques et télécharger les poids du modèle directement sur les plateformes spécialisées :
- Lien vers la fiche modèle : Voir sur Hugging Face
- Lien vers le code source : Dépôt GitHub officiel PaddlePaddle

Analyse : Pourquoi ce modèle change la donne en 2025 ?
L’arrivée d’ERNIE-4.5-VL-28B confirme une tendance lourde de cette fin d’année 2025 : la fin du « plus c’est gros, mieux c’est ». Nous entrons dans l’ère de l’efficience cognitive.
Les implications sont multiples :
- L’accessibilité du raisonnement complexe : Jusqu’à présent, le raisonnement multimodal avancé était réservé aux abonnés payants des services cloud américains. Baidu offre cette capacité « on-edge » (sur l’appareil).
- La pression sur la concurrence : En rendant ce modèle Open Source, Baidu force des acteurs comme OpenAI et Anthropic à justifier le coût de leurs API fermées pour des tâches de vision standard.
- Les risques potentiels : Comme tout modèle puissant accessible librement, la capacité de « zoomer » et d’analyser des images pose des questions de confidentialité, notamment si couplée à de la surveillance vidéo automatisée.
Cependant, il faut rester lucide. Si le modèle excelle en vision, sa base de connaissances textuelle reste optimisée pour le chinois et l’anglais. Son utilisation en français nécessitera probablement un fine-tuning spécifique pour atteindre la fluidité d’un modèle natif comme Mistral.
Conclusion
ERNIE-4.5-VL-28B n’est pas juste « un modèle de plus ». C’est la preuve que l’intelligence artificielle évolue vers une forme plus réfléchie et plus économe. En découplant la taille du modèle de ses capacités de raisonnement, Baidu offre aux développeurs un outil puissant pour construire les applications de demain, capables de voir et de comprendre le monde avec une finesse inédite, directement depuis un ordinateur portable.
