Amazon Web Services a anunțat vineri că va integra procesoare de la Cerebras în centrele sale de date în cadrul unui parteneriat multianual axat pe inferența AI. Acordul oferăAmazon Web Services a anunțat vineri că va integra procesoare de la Cerebras în centrele sale de date în cadrul unui parteneriat multianual axat pe inferența AI. Acordul oferă

Amazon utilizează cipurile wafer-scale Cerebras pentru a accelera modelele AI pe AWS

2026/03/14 08:32
5 min de lectură
Pentru opinii sau preocupări cu privire la acest conținut, contactează-ne la crypto.news@mexc.com

Amazon Web Services a anunțat vineri că va integra procesoare de la Cerebras în centrele sale de date în cadrul unui parteneriat multianual concentrat pe inferența AI.

Acordul oferă Amazon o nouă modalitate de a accelera modul în care modelele AI răspund la solicitări, scriu cod și gestionează cererile utilizatorilor în timp real. AWS a declarat că va utiliza tehnologia Cerebras, inclusiv Wafer-Scale Engine, pentru sarcinile de inferență.

Companiile nu au dezvăluit termenii financiari. Configurația este planificată pentru Amazon Bedrock în centrele de date AWS, plasând parteneriatul direct în interiorul unuia dintre principalele produse AI ale Amazon.

AWS a declarat că sistemul va combina servere alimentate de Amazon Trainium, sisteme Cerebras CS-3 și rețeaua Amazon Elastic Fabric Adapter.

Mai târziu în acest an, AWS plănuiește de asemenea să ofere modele lingvistice mari open-source de vârf și Amazon Nova pe hardware-ul Cerebras. David Brown, vicepreședinte al Compute and ML Services la AWS, a spus că viteza rămâne în continuare o problemă majoră în inferența AI, în special pentru asistența la codare în timp real și aplicațiile interactive.

David a spus: „Inferența este locul unde AI oferă valoare reală clienților, dar viteza rămâne un blocaj critic pentru sarcinile solicitante, cum ar fi asistența la codare în timp real și aplicațiile interactive."

Amazon separă prefill și decode pe cipuri separate

AWS a declarat că designul utilizează o metodă numită dezagregare a inferenței. Aceasta înseamnă împărțirea inferenței AI în două părți. Prima parte este procesarea solicitării, numită și prefill. A doua parte este generarea de ieșire, numită și decode.

AWS a spus că cele două sarcini se comportă foarte diferit. Prefill este paralelă, intensivă din punct de vedere computațional și necesită lățime de bandă moderată a memoriei. Decode este serială, mai ușoară din punct de vedere computațional și mult mai dependentă de lățimea de bandă a memoriei. Decode necesită și cea mai mare parte a timpului în aceste cazuri, deoarece fiecare token de ieșire trebuie produs unul câte unul.

De aceea AWS alocă hardware diferit fiecărei etape. Trainium va gestiona prefill. Cerebras CS-3 va gestiona decode.

AWS a declarat că rețeaua EFA cu latență redusă și lățime de bandă mare va conecta ambele părți, astfel încât sistemul să poată funcționa ca un singur serviciu în timp ce fiecare procesor se concentrează pe o sarcină separată.

David a spus: „Ceea ce construim cu Cerebras rezolvă acest lucru: prin împărțirea sarcinii de inferență între Trainium și CS-3 și conectarea lor cu Amazon Elastic Fabric Adapter, fiecare sistem face ceea ce face cel mai bine. Rezultatul va fi o inferență de un ordin de magnitudine mai rapidă și cu performanțe mai mari decât cea disponibilă astăzi."

AWS a declarat de asemenea că serviciul va rula pe AWS Nitro System, care este stratul de bază pentru infrastructura sa cloud.

Aceasta înseamnă că sistemele Cerebras CS-3 și instanțele alimentate de Trainium sunt de așteptat să funcționeze cu aceeași securitate, izolare și consecvență pe care clienții AWS o folosesc deja.

Amazon promovează mai intens Trainium pe măsură ce Nvidia se confruntă cu o altă amenințare

Anunțul oferă Amazon o altă oportunitate de a promova Trainium împotriva cipurilor de la Nvidia, AMD și alte companii mari de cipuri. AWS descrie Trainium ca fiind cipul său AI intern construit pentru performanță scalabilă și eficiență a costurilor în antrenament și inferență.

AWS a declarat că două laboratoare AI majore sunt deja angajate față de acesta. Anthropic l-a desemnat pe AWS ca partenerul său principal de antrenament și folosește Trainium pentru a antrena și implementa modele. OpenAI va consuma 2 gigawați de capacitate Trainium prin infrastructura AWS pentru Stateful Runtime Environment, modele de frontieră și alte sarcini avansate.

AWS a adăugat că Trainium3 a înregistrat o adopție puternică de la lansarea sa recentă, cu clienți din diverse industrii angajându-se pentru capacitate majoră.

Cerebras gestionează partea de decode a configurației. AWS a declarat că CS-3 este dedicat accelerării decodării, ceea ce îi oferă mai mult spațiu pentru token-uri de ieșire rapide. Cerebras spune că CS-3 este cel mai rapid sistem de inferență AI din lume și oferă o lățime de bandă a memoriei de mii de ori mai mare decât cel mai rapid GPU.

Compania a spus că modelele de raționament reprezintă acum o parte mai mare din munca de inferență și generează mai multe token-uri per cerere pe măsură ce lucrează prin probleme. Cerebras a declarat de asemenea că OpenAI, Cognition, Mistral și alții folosesc sistemele sale pentru sarcini solicitante, în special codarea agentică.

Andrew Feldman, fondator și director executiv al Cerebras Systems, a spus: „Parteneriatul cu AWS pentru a construi o soluție de inferență dezagregată va aduce cea mai rapidă inferență unei baze de clienți globale."

Andrew a adăugat: „Fiecare întreprindere din întreaga lume va putea beneficia de inferență extrem de rapidă în cadrul mediului AWS existent."

Acordul adaugă mai multă presiune asupra Nvidia, care în decembrie a semnat un acord de licențiere de 20 de miliarde de dolari cu Groq și plănuiește să dezvăluie săptămâna viitoare un nou sistem de inferență folosind tehnologia Groq.

Dacă citești asta, ești deja în avans. Rămâi acolo cu newsletter-ul nostru.

Declinarea responsabilității: Articolele publicate pe această platformă provin de pe platforme publice și sunt furnizate doar în scop informativ. Acestea nu reflectă în mod necesar punctele de vedere ale MEXC. Toate drepturile rămân la autorii originali. Dacă consideri că orice conținut încalcă drepturile terților, contactează crypto.news@mexc.com pentru eliminare. MEXC nu oferă nicio garanție cu privire la acuratețea, exhaustivitatea sau actualitatea conținutului și nu răspunde pentru nicio acțiune întreprinsă pe baza informațiilor furnizate. Conținutul nu constituie consiliere financiară, juridică sau profesională și nici nu trebuie considerat o recomandare sau o aprobare din partea MEXC.

KAIO Global Debut

KAIO Global DebutKAIO Global Debut

Enjoy 0-fee KAIO trading and tap into the RWA boom