Amazon Web Services poinformował w piątek, że umieści procesory Cerebras w swoich centrach danych w ramach wieloletniej współpracy skoncentrowanej na wnioskowaniu AI.
Umowa daje Amazon nowy sposób na przyspieszenie tego, jak modele AI odpowiadają na zapytania, piszą kod i obsługują żądania użytkowników na żywo. AWS poinformował, że będzie wykorzystywać technologię Cerebras, w tym Wafer-Scale Engine, do zadań wnioskowania.
Firmy nie ujawniły warunków finansowych. Konfiguracja jest planowana dla Amazon Bedrock wewnątrz centrów danych AWS, umieszczając współpracę bezpośrednio w jednym z głównych produktów AI Amazon.
AWS poinformował, że system połączy serwery zasilane Amazon Trainium, systemy Cerebras CS-3 oraz sieć Amazon Elastic Fabric Adapter.
Jeszcze w tym roku AWS planuje również oferować wiodące modele językowe o otwartym kodzie źródłowym oraz Amazon Nova na sprzęcie Cerebras. David Brown, wiceprezes ds. usług obliczeniowych i uczenia maszynowego w AWS, powiedział, że prędkość wciąż stanowi poważny problem w wnioskowaniu AI, zwłaszcza w przypadku pomocy w kodowaniu w czasie rzeczywistym i aplikacji interaktywnych.
David powiedział: „Wnioskowanie to miejsce, w którym AI dostarcza prawdziwą wartość klientom, ale prędkość pozostaje krytycznym wąskim gardłem dla wymagających obciążeń, takich jak pomoc w kodowaniu w czasie rzeczywistym i aplikacje interaktywne".
AWS poinformował, że projekt wykorzystuje metodę zwaną dezagregacją wnioskowania. Oznacza to podział wnioskowania AI na dwie części. Pierwsza część to przetwarzanie zapytań, zwane również prefill. Druga część to generowanie wyników, zwane również decode.
AWS poinformował, że oba zadania zachowują się bardzo różnie. Prefill jest równoległy, wymaga dużej mocy obliczeniowej i potrzebuje umiarkowanej przepustowości pamięci. Decode jest szeregowy, wymaga mniejszej mocy obliczeniowej i jest znacznie bardziej zależny od przepustowości pamięci. Decode zajmuje również większość czasu w tych przypadkach, ponieważ każdy token wyjściowy musi być generowany jeden po drugim.
Dlatego AWS przypisuje różny sprzęt do każdego etapu. Trainium będzie obsługiwać prefill. Cerebras CS-3 będzie obsługiwać decode.
AWS poinformował, że sieć EFA o niskim opóźnieniu i wysokiej przepustowości połączy obie strony, dzięki czemu system może działać jako jedna usługa, podczas gdy każdy procesor koncentruje się na osobnym zadaniu.
David powiedział: „To, co budujemy z Cerebras, rozwiązuje ten problem: dzieląc obciążenie wnioskowania między Trainium i CS-3 oraz łącząc je z Amazon Elastic Fabric Adapter, każdy system robi to, co robi najlepiej. Rezultatem będzie wnioskowanie rzędu wielkości szybsze i wydajniejsze niż to, co jest obecnie dostępne".
AWS poinformował również, że usługa będzie działać na AWS Nitro System, który jest warstwą bazową dla jego infrastruktury chmurowej.
Oznacza to, że systemy Cerebras CS-3 i instancje zasilane Trainium mają działać z tym samym poziomem bezpieczeństwa, izolacji i spójności, z których już korzystają klienci AWS.
Ogłoszenie daje również Amazon kolejną możliwość promowania Trainium w konkurencji z chipami Nvidia, AMD i innych dużych firm chipowych. AWS opisuje Trainium jako własny chip AI zbudowany z myślą o skalowalnej wydajności i efektywności kosztowej w zakresie trenowania i wnioskowania.
AWS poinformował, że dwa główne laboratoria AI już się do niego zobowiązały. Anthropic uznał AWS za swojego głównego partnera szkoleniowego i wykorzystuje Trainium do trenowania i wdrażania modeli. OpenAI będzie wykorzystywać 2 gigawaty mocy Trainium poprzez infrastrukturę AWS dla Stateful Runtime Environment, modeli pionierskich i innych zaawansowanych obciążeń.
AWS dodał, że Trainium3 cieszy się dużą popularnością od niedawnego wydania, a klienci z różnych branż zobowiązują się do znaczących mocy.
Cerebras obsługuje stronę decode konfiguracji. AWS poinformował, że CS-3 jest dedykowany akceleracji dekodowania, co daje mu więcej przestrzeni na szybkie tokeny wyjściowe. Cerebras twierdzi, że CS-3 to najszybszy system wnioskowania AI na świecie i zapewnia tysiące razy większą przepustowość pamięci niż najszybszy GPU.
Firma powiedziała, że modele rozumowania stanowią obecnie większy udział w pracy wnioskowania i generują więcej tokenów na żądanie podczas rozwiązywania problemów. Cerebras powiedział również, że OpenAI, Cognition, Mistral i inni używają jego systemów do wymagających obciążeń, zwłaszcza kodowania agentowego.
Andrew Feldman, założyciel i dyrektor generalny Cerebras Systems, powiedział: „Współpraca z AWS w celu zbudowania zdezagregowanego rozwiązania wnioskowania przyniesie najszybsze wnioskowanie globalnej bazie klientów".
Andrew dodał: „Każde przedsiębiorstwo na całym świecie będzie mogło skorzystać z błyskawicznie szybkiego wnioskowania w swoim istniejącym środowisku AWS".
Umowa wywiera większą presję na Nvidia, która w grudniu podpisała umowę licencyjną z Groq o wartości 20 miliardów dolarów i planuje w przyszłym tygodniu zaprezentować nowy system wnioskowania wykorzystujący technologię Groq.
Jeśli to czytasz, jesteś już o krok do przodu. Pozostań tam z naszym newsletterem.

