آمازون وب سرویسز روز جمعه اعلام کرد که پردازندههای Cerebras را در چارچوب یک مشارکت چندساله با تمرکز بر استنتاج هوش مصنوعی در مراکز داده خود قرار خواهد داد.
این قرارداد به آمازون راهی جدید برای تسریع نحوه پاسخگویی مدلهای هوش مصنوعی به درخواستها، نوشتن کد و مدیریت درخواستهای زنده کاربران میدهد. AWS اعلام کرد که از فناوری Cerebras، از جمله Wafer-Scale Engine، برای وظایف استنتاج استفاده خواهد کرد.
شرکتها شرایط مالی را به اشتراک نگذاشتند. این راهاندازی برای Amazon Bedrock در داخل مراکز داده AWS برنامهریزی شده است و این مشارکت را دقیقاً در داخل یکی از محصولات اصلی هوش مصنوعی آمازون قرار میدهد.
AWS اعلام کرد که این سیستم سرورهای مبتنی بر Amazon Trainium، سیستمهای Cerebras CS-3 و شبکه Elastic Fabric Adapter آمازون را ترکیب خواهد کرد.
در اواخر امسال، AWS همچنین قصد دارد مدلهای زبانی بزرگ منبع باز پیشرو و Amazon Nova را بر روی سختافزار Cerebras ارائه دهد. دیوید براون، معاون خدمات محاسباتی و یادگیری ماشینی در AWS، گفت که سرعت هنوز یک مشکل اساسی در استنتاج هوش مصنوعی است، بهویژه برای کمک کدنویسی در زمان واقعی و برنامههای تعاملی.
دیوید گفت: "استنتاج جایی است که هوش مصنوعی ارزش واقعی را به مشتریان ارائه میدهد، اما سرعت همچنان یک گلوگاه حیاتی برای بارهای کاری سنگین مانند کمک کدنویسی در زمان واقعی و برنامههای تعاملی باقی میماند."
AWS اعلام کرد که این طراحی از روشی به نام تفکیک استنتاج استفاده میکند. این به معنای تقسیم استنتاج هوش مصنوعی به دو بخش است. بخش اول پردازش درخواست است که prefill نیز نامیده میشود. بخش دوم تولید خروجی است که decode نیز نامیده میشود.
AWS اعلام کرد که این دو کار رفتار بسیار متفاوتی دارند. Prefill موازی، سنگین محاسباتی و نیازمند پهنای باند حافظه متوسط است. Decode سریال، سبکتر در محاسبات و بسیار وابستهتر به پهنای باند حافظه است. Decode همچنین بیشترین زمان را در این موارد میگیرد زیرا هر توکن خروجی باید یک به یک تولید شود.
به همین دلیل است که AWS سختافزارهای مختلف را به هر مرحله اختصاص میدهد. Trainium با prefill برخورد خواهد کرد. Cerebras CS-3 با decode برخورد خواهد کرد.
AWS اعلام کرد که شبکه EFA با تاخیر کم و پهنای باند بالا هر دو طرف را متصل خواهد کرد تا سیستم بتواند به عنوان یک سرویس کار کند در حالی که هر پردازنده بر یک وظیفه جداگانه تمرکز میکند.
دیوید گفت: "آنچه ما با Cerebras ساختهایم این مشکل را حل میکند: با تقسیم بار کاری استنتاج بین Trainium و CS-3، و اتصال آنها با Elastic Fabric Adapter آمازون، هر سیستم کاری را که در آن بهترین است انجام میدهد. نتیجه استنتاجی خواهد بود که یک مرتبه سریعتر و با عملکرد بالاتر از آنچه امروزه در دسترس است."
AWS همچنین گفت که این سرویس بر روی AWS Nitro System اجرا خواهد شد که لایه پایه برای زیرساخت ابری آن است.
این به این معنی است که سیستمهای Cerebras CS-3 و نمونههای مبتنی بر Trainium انتظار میرود با همان امنیت، جداسازی و ثبات که مشتریان AWS در حال حاضر استفاده میکنند، کار کنند.
این اعلامیه همچنین به آمازون فرصت دیگری میدهد تا Trainium را در برابر تراشههای Nvidia، AMD و سایر شرکتهای بزرگ تراشه فشار دهد. AWS، Trainium را به عنوان تراشه هوش مصنوعی داخلی خود توصیف میکند که برای عملکرد مقیاسپذیر و کارایی هزینه در آموزش و استنتاج ساخته شده است.
AWS اعلام کرد که دو آزمایشگاه اصلی هوش مصنوعی قبلاً به آن متعهد شدهاند. Anthropic، AWS را به عنوان شریک اصلی آموزش خود معرفی کرده و از Trainium برای آموزش و استقرار مدلها استفاده میکند. OpenAI ظرفیت 2 گیگاوات Trainium را از طریق زیرساخت AWS برای Stateful Runtime Environment، مدلهای پیشرفته و سایر بارهای کاری پیشرفته مصرف خواهد کرد.
AWS اضافه کرد که Trainium3 از زمان انتشار اخیر خود پذیرش قوی داشته است و مشتریان در سراسر صنایع ظرفیت عمدهای را متعهد شدهاند.
Cerebras سمت decode راهاندازی را مدیریت میکند. AWS گفت که CS-3 به شتاب decode اختصاص یافته است که فضای بیشتری برای توکنهای خروجی سریع به آن میدهد. Cerebras میگوید CS-3 سریعترین سیستم استنتاج هوش مصنوعی جهان است و پهنای باند حافظه هزاران برابر بیشتر از سریعترین GPU ارائه میدهد.
شرکت گفت که مدلهای استدلال اکنون سهم بیشتری از کار استنتاج را تشکیل میدهند و با کار کردن بر روی مشکلات، توکنهای بیشتری در هر درخواست تولید میکنند. Cerebras همچنین گفت که OpenAI، Cognition، Mistral و دیگران از سیستمهای آن برای بارهای کاری سنگین، بهویژه کدنویسی عاملی، استفاده میکنند.
اندرو فلدمن، بنیانگذار و مدیر اجرایی Cerebras Systems، گفت: "مشارکت با AWS برای ساخت راهکار استنتاج تفکیک شده، سریعترین استنتاج را به پایگاه مشتریان جهانی خواهد آورد."
اندرو اضافه کرد: "هر شرکتی در سراسر جهان قادر خواهد بود از استنتاج بسیار سریع در محیط AWS موجود خود بهرهمند شود."
این قرارداد فشار بیشتری بر Nvidia اضافه میکند که در دسامبر قرارداد مجوز 20 میلیارد دلاری با Groq امضا کرد و قصد دارد هفته آینده سیستم استنتاج جدیدی با استفاده از فناوری Groq را رونمایی کند.
اگر این را میخوانید، شما از قبل جلوتر هستید. با خبرنامه ما در همان جا بمانید.


