Amazon Web Services a annoncé vendredi qu'il installerait des processeurs de Cerebras dans ses centres de données dans le cadre d'un partenariat pluriannuel axé sur l'inférence IA.
L'accord donne à Amazon un nouveau moyen d'accélérer la façon dont les modèles IA répondent aux invites, écrivent du code et gèrent les demandes des utilisateurs en direct. AWS a déclaré qu'il utilisera la technologie Cerebras, y compris le Wafer-Scale Engine, pour les tâches d'inférence.
Les sociétés n'ont pas communiqué les conditions financières. La configuration est prévue pour Amazon Bedrock à l'intérieur des centres de données AWS, plaçant le partenariat directement au sein de l'un des principaux produits IA d'Amazon.
AWS a déclaré que le système combinera des serveurs alimentés par Amazon Trainium, des systèmes Cerebras CS-3 et le réseau Elastic Fabric Adapter d'Amazon.
Plus tard cette année, AWS prévoit également de proposer des modèles de langage de grande taille open-source de premier plan et Amazon Nova sur du matériel Cerebras. David Brown, vice-président des services de calcul et de ML chez AWS, a déclaré que la vitesse reste un problème majeur dans l'inférence IA, en particulier pour l'assistance au codage en temps réel et les applications interactives.
David a déclaré : "L'inférence est là où l'IA apporte une réelle valeur aux clients, mais la vitesse reste un goulot d'étranglement critique pour les charges de travail exigeantes comme l'assistance au codage en temps réel et les applications interactives."
AWS a déclaré que la conception utilise une méthode appelée désagrégation de l'inférence. Cela signifie diviser l'inférence IA en deux parties. La première partie est le traitement des invites, également appelé prefill. La deuxième partie est la génération de sortie, également appelée décodage.
AWS a déclaré que les deux tâches se comportent très différemment. Le prefill est parallèle, lourd en calcul et nécessite une bande passante mémoire modérée. Le décodage est séquentiel, plus léger en calcul et beaucoup plus dépendant de la bande passante mémoire. Le décodage prend également la plupart du temps dans ces cas car chaque jeton de sortie doit être produit un par un.
C'est pourquoi AWS attribue un matériel différent à chaque étape. Trainium gérera le prefill. Cerebras CS-3 gérera le décodage.
AWS a déclaré que le réseau EFA à faible latence et à haut débit connectera les deux côtés afin que le système puisse fonctionner comme un seul service tandis que chaque processeur se concentre sur une tâche distincte.
David a déclaré : "Ce que nous construisons avec Cerebras résout ce problème : en divisant la charge de travail d'inférence entre Trainium et CS-3, et en les connectant avec l'Elastic Fabric Adapter d'Amazon, chaque système fait ce qu'il fait de mieux. Le résultat sera une inférence d'un ordre de grandeur plus rapide et de meilleures performances que ce qui est disponible aujourd'hui."
AWS a également déclaré que le service fonctionnera sur le système AWS Nitro, qui est la couche de base de son infrastructure cloud.
Cela signifie que les systèmes Cerebras CS-3 et les instances alimentées par Trainium devraient fonctionner avec la même sécurité, isolation et cohérence que les clients AWS utilisent déjà.
L'annonce donne également à Amazon une autre ouverture pour promouvoir Trainium contre les puces de Nvidia, AMD et d'autres grandes sociétés de puces. AWS décrit Trainium comme sa puce IA interne conçue pour des performances évolutives et une efficacité des coûts à travers l'entraînement et l'inférence.
AWS a déclaré que deux laboratoires d'IA majeurs y sont déjà engagés. Anthropic a désigné AWS comme son principal partenaire d'entraînement et utilise Trainium pour entraîner et déployer des modèles. OpenAI consommera 2 gigawatts de capacité Trainium via l'infrastructure AWS pour Stateful Runtime Environment, les modèles frontières et d'autres charges de travail avancées.
AWS a ajouté que Trainium3 a connu une forte adoption depuis sa récente sortie, avec des clients de tous les secteurs engageant une capacité importante.
Cerebras gère le côté décodage de la configuration. AWS a déclaré que le CS-3 est dédié à l'accélération du décodage, ce qui lui donne plus de place pour des jetons de sortie rapides. Cerebras affirme que le CS-3 est le système d'inférence IA le plus rapide au monde et offre une bande passante mémoire des milliers de fois supérieure à celle du GPU le plus rapide.
La société a déclaré que les modèles de raisonnement représentent désormais une plus grande part du travail d'inférence et génèrent plus de jetons par demande lorsqu'ils résolvent des problèmes. Cerebras a également déclaré qu'OpenAI, Cognition, Mistral et d'autres utilisent ses systèmes pour des charges de travail exigeantes, en particulier le codage agentique.
Andrew Feldman, fondateur et directeur général de Cerebras Systems, a déclaré : "Le partenariat avec AWS pour construire une solution d'inférence désagrégée apportera l'inférence la plus rapide à une clientèle mondiale."
Andrew a ajouté : "Toutes les entreprises du monde entier pourront bénéficier d'une inférence extrêmement rapide au sein de leur environnement AWS existant."
L'accord ajoute plus de pression sur Nvidia, qui en décembre a signé un accord de licence de 20 milliards de dollars avec Groq et prévoit la semaine prochaine de dévoiler un nouveau système d'inférence utilisant la technologie Groq.
Si vous lisez ceci, vous avez déjà une longueur d'avance. Restez-y avec notre newsletter.


