Quel rapport entre votre prochain assistant vocal, la réduction de la facture énergétique des data-centers et la guerre des puces IA ? Amazon vient de rendre publique sa réponse : Trainium 3. Gravée en 3 nm, capable de scaler jusqu’à 144 puces dans une seule baie et promise à un coût d’entraînement divisé par deux, la nouvelle accélérateur d’AWS bouscule le marché dominé par Nvidia. Vous êtes développeur, data scientist ou simplement curieux de comprendre comment l’IA va devenir (encore) plus abordable ? Voici tout ce qu’il faut savoir sur Trainium 3, sans jargon et avec les chiffres officiels.

1. Pourquoi Trainium 3 interrompt la partie : le contexte en 60 secondes
- Explosion des paramètres : les modèles dépassent allègrement le billion de paramètres ; le coût GPU devient prohibitif.
- Pénurie persistante : les H100/H200 de Nvidia restent rares et chères malgré l’arrivée des Blackwell.
- Stratégie « vertical » d’Amazon : en concevant ses propres puces, AWS maîtrise prix, disponibilité et roadmap, exactement comme Apple avec ses iPhone.
Résultat : Trainium 3 arrive avec la ferme intention de transformer l’IA training et l’inférence en « commodity » accessible à toutes les entreprises, pas seulement aux géants de la tech.
2. L’annonce officielle : chiffres, dates et citations
Lors de re:Invent 2025, Amazon a levé le voile sur deux produits :
- La puce Trainium 3
- gravure 3 nm, 2,52 PFLOPs en FP8 par puce
- 4,4× plus de puissance brute et 40 % plus efficace énergétiquement que Trainium 2
- mémoire HBM3e doublée, bande-passante ×1,7
- Le système Trn3 UltraServer
- jusqu’à 144 puces Trainium 3 dans une seule baie
- 362 PFLOPs FP8 et latence divisée par 4
- disponible dès aujourd’hui dans certaines régions AWS, échelle mondiale prévue début 2026
« Nous voulons rendre l’entraînement de très grands modèles aussi simple que possible, sans faire exploser le budget » — Dave Brown, VP Amazon EC2
AWS affiche déjà des réductions de coût de 50 % côté clients comme Anthropic, Decart ou Ricoh, et une accélération ×4 sur l’inférence de vidéo générative en temps réel .
3. Comment Trainium 3 change la donne : analyse technique rapide
- Compute dense : 144 puces = 362 PFLOPs ⇒ 2,5 PFLOPs par puce, soit 63 % du Blackwell B200 (10 PFLOPs), mais à prix bien inférieur.
- Mémoire équilibrée : 144 GB HBM3e par puce, bande-passante 4,9 TB/s ; moins que les 8 TB/s de Nvidia mais suffisant pour des clusters géants.
- Efficacité énergétique : un serveur Trn3 consomme –40 % de watts par workload par rapport à Trainium 2, impact carbone moindre.
En clair, vous pouvez entraîner un LLM de 70 milliards de paramètres en quelques semaines au lieu de plusieurs mois, sans doubler la facture d’électricité.

4. Cas d’usage concrets déjà validés
- Anthropic : 500 000 Trainium 2 aujourd’hui, migration en cours vers Trainium 3 pour réduire encore les coûts de Claude « Next ».
- Decart : génération de vidéos IA en temps réel ×4 plus rapide et 50 % moins chère que sur GPU .
- Ricoh & Splash Music : inférence batch à grande échelle avec baisse de 50 % du prix par token.
Take-away : si votre application combine fort trafic d’inférence ou entraînements récurrents, vous testerez probablement Trn3 dès ce trimestre.
5. Prix, disponibilité, comment l’essayer sans vous ruiner
AWS propose Trn3 en instances à la demande, Spot et Savings Plans 1–3 ans. À titre indicatif :Table
Copy
| Région US-Est-1 (Ohio) | Prix à l’heure (on-demand) |
|---|---|
| trn3.2xlarge (8 puces) | ≈ 6,80 USD |
| trn3.32xlarge (128 p.) | ≈ 98 USD |
Astuce : les instances Spot affichent –70 % de réduction moyenne, idéal pour des jobs batch ou des expérimentations .
Premiers pas :
- Créez une AMI AWS Deep Learning avec Neuron SDK 3.x
- Compilez votre modèle Hugging Face via
torch-neuronx - Lancez un cluster via Amazon EKS ou AWS ParallelCluster
6. Comparatif : Trainium 3 vs Nvidia Blackwell vs Google Trillium
Table
Copy
| Caractéristique | Trainium 3 | Nvidia B200 | Google Trillium |
|---|---|---|---|
| Node | 3 nm | 4NP custom | 3 nm |
| PFLOPs FP8 | 2,52 | 10 | 3–4 (est.) |
| Mémoire | 144 GB | 192 GB | 192 GB |
| Bande-passante | 4,9 TB/s | 8 TB/s | 4,9 TB/s |
| Eco-énergie vs gén. p. | –40 % | –25 % (vs H100) | –67 % (vs TPU v5e) |
| Prix / perf. | ★★★★★ | ★★☆☆☆ | ★★★★☆ |
| Maturité logicielle | ★★★☆☆ | ★★★★★ | ★★★★☆ |
Verdict : Nvidia reste roi du logiciel (CUDA, cuDNN, frameworks), mais Amazon devient roi du prix. Si votre équipe accepte de porter son code sur Neuron SDK, les économies sont réelles .
7. Risques et limites à connaître avant d’adopter
- Écosystème jeune : pas encore de support natif dans PyTorch 2.x ; il faut la couche
neuronx-cc - Migration GPU⇄Trn3 : certaines couches personnalisées CUDA doivent être réécrites
- Disponibilité régionale : en déploiement progressif ; l’Europe n’est prévue qu’au T2 2026
- Verrou fournisseur : vous dépendez d’AWS ; difficile de rapatrier le workload chez un autre cloud
Conseil : commencez par des workloads verts (nouveaux projets) plutôt que des legacy stacks CUDA.
8. Roadmap : Trainium 4 déjà dans les cartons
Amazon a déjà confirmé Trainium 4 avec support du NVLink Fusion de Nvidia, permettant des clusters hétérogènes GPU+Trainium. Objectif : sortir de la logique « winner takes all » et laisser aux clients le choix du ratio prix/performance.
Conclusion : agissez maintenant, testez avant vos concurrents
Trainium 3 n’est pas qu’une puce supplémentaire ; c’est le signal que l’hégémonie GPU va s’éroder. D’ici 18 mois, 50 % des entraînements d’IA dans le cloud pourraient tourner sur des accélérateurs propriétaires (TPU, Trainium, Inferentia). Votre avantage compétitif ? Tester aujourd’hui pour maîtriser le SDK, affiner vos modèles et réduire de moitié vos coûts avant que la concurrence ne s’y mette.
