Amazon Web Services anunció el viernes que instalará procesadores de Cerebras dentro de sus centros de datos bajo una asociación de varios años centrada en la inferencia de IA. El acuerdo otorgaAmazon Web Services anunció el viernes que instalará procesadores de Cerebras dentro de sus centros de datos bajo una asociación de varios años centrada en la inferencia de IA. El acuerdo otorga

Amazon aprovecha los chips a escala de oblea de Cerebras para potenciar modelos de IA en AWS

2026/03/14 08:32
Lectura de 5 min
Si tienes comentarios o inquietudes sobre este contenido, comunícate con nosotros mediante crypto.news@mexc.com

Amazon Web Services anunció el viernes que colocará procesadores de Cerebras dentro de sus centros de datos bajo una asociación de varios años enfocada en la inferencia de IA.

El acuerdo le da a Amazon una nueva forma de acelerar cómo los modelos de IA responden a solicitudes, escriben código y manejan peticiones de usuarios en vivo. AWS dijo que utilizará la tecnología de Cerebras, incluyendo el Wafer-Scale Engine, para tareas de inferencia.

Las compañías no compartieron los términos financieros. La configuración está planeada para Amazon Bedrock dentro de los centros de datos de AWS, colocando la asociación directamente dentro de uno de los principales productos de IA de Amazon.

AWS dijo que el sistema combinará servidores impulsados por Amazon Trainium, sistemas Cerebras CS-3 y redes Elastic Fabric Adapter de Amazon.

Más adelante este año, AWS también planea ofrecer modelos de lenguaje grandes de código abierto líderes y Amazon Nova en hardware de Cerebras. David Brown, vicepresidente de Servicios de Computación y ML en AWS, dijo que la velocidad sigue siendo un problema importante en la inferencia de IA, especialmente para ayuda de codificación en tiempo real y aplicaciones interactivas.

David dijo: "La inferencia es donde la IA entrega valor real a los clientes, pero la velocidad sigue siendo un cuello de botella crítico para cargas de trabajo exigentes como asistencia de codificación en tiempo real y aplicaciones interactivas".

Amazon divide el prefill y decode en chips separados

AWS dijo que el diseño utiliza un método llamado desagregación de inferencia. Eso significa dividir la inferencia de IA en dos partes. La primera parte es el procesamiento de solicitudes, también llamado prefill. La segunda parte es la generación de resultados, también llamada decode.

AWS dijo que los dos trabajos se comportan de manera muy diferente. El prefill es paralelo, pesado en computación y necesita ancho de banda de memoria moderado. El decode es serial, más ligero en computación y mucho más dependiente del ancho de banda de memoria. El decode también toma la mayor parte del tiempo en estos casos porque cada token de salida tiene que ser producido uno por uno.

Por eso AWS está asignando hardware diferente a cada etapa. Trainium manejará el prefill. Cerebras CS-3 manejará el decode.

AWS dijo que la red EFA de baja latencia y alto ancho de banda conectará ambos lados para que el sistema pueda funcionar como un servicio mientras cada procesador se enfoca en una tarea separada.

David dijo: "Lo que estamos construyendo con Cerebras resuelve eso: al dividir la carga de trabajo de inferencia entre Trainium y CS-3, y conectándolos con el Elastic Fabric Adapter de Amazon, cada sistema hace lo que mejor sabe hacer. El resultado será una inferencia un orden de magnitud más rápida y de mayor rendimiento que lo que está disponible hoy".

AWS también dijo que el servicio se ejecutará en el AWS Nitro System, que es la capa base para su infraestructura en la nube.

Eso significa que se espera que los sistemas Cerebras CS-3 y las instancias impulsadas por Trainium operen con la misma seguridad, aislamiento y consistencia que los clientes de AWS ya utilizan.

Amazon impulsa Trainium con más fuerza mientras Nvidia enfrenta otra amenaza

El anuncio también le da a Amazon otra oportunidad para impulsar Trainium contra chips de Nvidia, AMD y otras grandes compañías de chips. AWS describe Trainium como su chip de IA interno construido para rendimiento escalable y eficiencia de costos en entrenamiento e inferencia.

AWS dijo que dos laboratorios importantes de IA ya están comprometidos con él. Anthropic ha nombrado a AWS como su socio principal de entrenamiento y utiliza Trainium para entrenar e implementar modelos. OpenAI consumirá 2 gigavatios de capacidad de Trainium a través de la infraestructura de AWS para Stateful Runtime Environment, modelos de frontera y otras cargas de trabajo avanzadas.

AWS agregó que Trainium3 ha tenido una fuerte adopción desde su reciente lanzamiento, con clientes de diversas industrias comprometiendo una capacidad importante.

Cerebras está manejando el lado del decode de la configuración. AWS dijo que CS-3 está dedicado a la aceleración de decodificación, lo que le da más espacio para tokens de salida rápidos. Cerebras dice que CS-3 es el sistema de inferencia de IA más rápido del mundo y ofrece miles de veces mayor ancho de banda de memoria que la GPU más rápida.

La compañía dijo que los modelos de razonamiento ahora representan una mayor parte del trabajo de inferencia y generan más tokens por solicitud mientras trabajan en problemas. Cerebras también dijo que OpenAI, Cognition, Mistral y otros utilizan sus sistemas para cargas de trabajo exigentes, especialmente codificación agéntica.

Andrew Feldman, fundador y director ejecutivo de Cerebras Systems, dijo: "Asociarse con AWS para construir una solución de inferencia desagregada traerá la inferencia más rápida a una base de clientes global".

Andrew agregó: "Todas las empresas del mundo podrán beneficiarse de una inferencia increíblemente rápida dentro de su entorno AWS existente".

El acuerdo añade más presión sobre Nvidia, que en diciembre firmó un acuerdo de licencia de $20 mil millones con Groq y planea la próxima semana revelar un nuevo sistema de inferencia utilizando tecnología Groq.

Si estás leyendo esto, ya estás adelante. Mantente ahí con nuestro boletín.

Aviso legal: Los artículos republicados en este sitio provienen de plataformas públicas y se ofrecen únicamente con fines informativos. No reflejan necesariamente la opinión de MEXC. Todos los derechos pertenecen a los autores originales. Si consideras que algún contenido infringe derechos de terceros, comunícate a la dirección crypto.news@mexc.com para solicitar su eliminación. MEXC no garantiza la exactitud, la integridad ni la actualidad del contenido y no se responsabiliza por acciones tomadas en función de la información proporcionada. El contenido no constituye asesoría financiera, legal ni profesional, ni debe interpretarse como recomendación o respaldo por parte de MEXC.