Amazon Web Services a anunțat vineri că va integra procesoare de la Cerebras în centrele sale de date în cadrul unui parteneriat multianual concentrat pe inferența AI.
Acordul oferă Amazon o nouă modalitate de a accelera modul în care modelele AI răspund la solicitări, scriu cod și gestionează cererile utilizatorilor în timp real. AWS a declarat că va utiliza tehnologia Cerebras, inclusiv Wafer-Scale Engine, pentru sarcinile de inferență.
Companiile nu au dezvăluit termenii financiari. Configurația este planificată pentru Amazon Bedrock în centrele de date AWS, plasând parteneriatul direct în interiorul unuia dintre principalele produse AI ale Amazon.
AWS a declarat că sistemul va combina servere alimentate de Amazon Trainium, sisteme Cerebras CS-3 și rețeaua Amazon Elastic Fabric Adapter.
Mai târziu în acest an, AWS plănuiește de asemenea să ofere modele lingvistice mari open-source de vârf și Amazon Nova pe hardware-ul Cerebras. David Brown, vicepreședinte al Compute and ML Services la AWS, a spus că viteza rămâne în continuare o problemă majoră în inferența AI, în special pentru asistența la codare în timp real și aplicațiile interactive.
David a spus: „Inferența este locul unde AI oferă valoare reală clienților, dar viteza rămâne un blocaj critic pentru sarcinile solicitante, cum ar fi asistența la codare în timp real și aplicațiile interactive."
AWS a declarat că designul utilizează o metodă numită dezagregare a inferenței. Aceasta înseamnă împărțirea inferenței AI în două părți. Prima parte este procesarea solicitării, numită și prefill. A doua parte este generarea de ieșire, numită și decode.
AWS a spus că cele două sarcini se comportă foarte diferit. Prefill este paralelă, intensivă din punct de vedere computațional și necesită lățime de bandă moderată a memoriei. Decode este serială, mai ușoară din punct de vedere computațional și mult mai dependentă de lățimea de bandă a memoriei. Decode necesită și cea mai mare parte a timpului în aceste cazuri, deoarece fiecare token de ieșire trebuie produs unul câte unul.
De aceea AWS alocă hardware diferit fiecărei etape. Trainium va gestiona prefill. Cerebras CS-3 va gestiona decode.
AWS a declarat că rețeaua EFA cu latență redusă și lățime de bandă mare va conecta ambele părți, astfel încât sistemul să poată funcționa ca un singur serviciu în timp ce fiecare procesor se concentrează pe o sarcină separată.
David a spus: „Ceea ce construim cu Cerebras rezolvă acest lucru: prin împărțirea sarcinii de inferență între Trainium și CS-3 și conectarea lor cu Amazon Elastic Fabric Adapter, fiecare sistem face ceea ce face cel mai bine. Rezultatul va fi o inferență de un ordin de magnitudine mai rapidă și cu performanțe mai mari decât cea disponibilă astăzi."
AWS a declarat de asemenea că serviciul va rula pe AWS Nitro System, care este stratul de bază pentru infrastructura sa cloud.
Aceasta înseamnă că sistemele Cerebras CS-3 și instanțele alimentate de Trainium sunt de așteptat să funcționeze cu aceeași securitate, izolare și consecvență pe care clienții AWS o folosesc deja.
Anunțul oferă Amazon o altă oportunitate de a promova Trainium împotriva cipurilor de la Nvidia, AMD și alte companii mari de cipuri. AWS descrie Trainium ca fiind cipul său AI intern construit pentru performanță scalabilă și eficiență a costurilor în antrenament și inferență.
AWS a declarat că două laboratoare AI majore sunt deja angajate față de acesta. Anthropic l-a desemnat pe AWS ca partenerul său principal de antrenament și folosește Trainium pentru a antrena și implementa modele. OpenAI va consuma 2 gigawați de capacitate Trainium prin infrastructura AWS pentru Stateful Runtime Environment, modele de frontieră și alte sarcini avansate.
AWS a adăugat că Trainium3 a înregistrat o adopție puternică de la lansarea sa recentă, cu clienți din diverse industrii angajându-se pentru capacitate majoră.
Cerebras gestionează partea de decode a configurației. AWS a declarat că CS-3 este dedicat accelerării decodării, ceea ce îi oferă mai mult spațiu pentru token-uri de ieșire rapide. Cerebras spune că CS-3 este cel mai rapid sistem de inferență AI din lume și oferă o lățime de bandă a memoriei de mii de ori mai mare decât cel mai rapid GPU.
Compania a spus că modelele de raționament reprezintă acum o parte mai mare din munca de inferență și generează mai multe token-uri per cerere pe măsură ce lucrează prin probleme. Cerebras a declarat de asemenea că OpenAI, Cognition, Mistral și alții folosesc sistemele sale pentru sarcini solicitante, în special codarea agentică.
Andrew Feldman, fondator și director executiv al Cerebras Systems, a spus: „Parteneriatul cu AWS pentru a construi o soluție de inferență dezagregată va aduce cea mai rapidă inferență unei baze de clienți globale."
Andrew a adăugat: „Fiecare întreprindere din întreaga lume va putea beneficia de inferență extrem de rapidă în cadrul mediului AWS existent."
Acordul adaugă mai multă presiune asupra Nvidia, care în decembrie a semnat un acord de licențiere de 20 de miliarde de dolari cu Groq și plănuiește să dezvăluie săptămâna viitoare un nou sistem de inferență folosind tehnologia Groq.
Dacă citești asta, ești deja în avans. Rămâi acolo cu newsletter-ul nostru.

