به طور خلاصه
- گوگل اعلام کرد که الگوریتم TurboQuant میتواند یک گلوگاه بزرگ حافظه هوش مصنوعی را حداقل شش برابر کاهش دهد بدون از دست دادن دقت در طول استنتاج.
- سهام حافظه از جمله Micron، Western Digital و Seagate پس از انتشار مقاله کاهش یافت.
- این روش حافظه استنتاج را فشرده میکند، نه وزنهای مدل، و فقط در معیارهای تحقیقاتی آزمایش شده است.
گوگل ریسرچ روز چهارشنبه TurboQuant را منتشر کرد، یک الگوریتم فشردهسازی که یک گلوگاه بزرگ حافظه استنتاج را حداقل 6 برابر کاهش میدهد در حالی که صفر از دست دادن دقت را حفظ میکند.
قرار است این مقاله در ICLR 2026 ارائه شود و واکنش آنلاین فوری بود.
متیو پرینس، مدیر عامل Cloudflare، آن را لحظه DeepSeek گوگل نامید. قیمت سهام حافظه، از جمله Micron، Western Digital و Seagate، در همان روز کاهش یافت.
پس آیا واقعی است؟
کارایی کوانتیزاسیون به خودی خود یک دستاورد بزرگ است. اما "صفر از دست دادن دقت" نیاز به زمینه دارد.
TurboQuant حافظه پنهان KV را هدف قرار میدهد—بخشی از حافظه GPU که همه چیزهایی را که یک مدل زبانی باید در طول یک مکالمه به خاطر بسپارد، ذخیره میکند.
با رشد پنجرههای زمینه به سمت میلیونها توکن، این حافظههای پنهان به صدها گیگابایت در هر جلسه منفجر میشوند. این گلوگاه واقعی است. نه قدرت محاسباتی، بلکه حافظه خام.
روشهای فشردهسازی سنتی سعی میکنند این حافظههای پنهان را با گرد کردن اعداد به سمت پایین کاهش دهند—به عنوان مثال، از اعداد اعشاری 32 بیتی به 16، به 8 تا 4 بیتی. برای درک بهتر آن، به کاهش یک تصویر از 4K، به Full HD، به 720p و غیره فکر کنید. تشخیص اینکه به طور کلی همان تصویر است آسان است، اما جزئیات بیشتری در وضوح 4K وجود دارد.
نکته: آنها باید "ثابتهای کوانتیزاسیون" اضافی را در کنار دادههای فشرده شده ذخیره کنند تا از احمق شدن مدل جلوگیری کنند. این ثابتها 1 تا 2 بیت به هر مقدار اضافه میکنند و بخشی از دستاوردها را از بین میبرند.
TurboQuant ادعا میکند که این سربار را به طور کامل از بین میبرد.
این کار را از طریق دو زیرالگوریتم انجام میدهد. PolarQuant اندازه را از جهت در بردارها جدا میکند، و QJL (Quantized Johnson-Lindenstrauss) خطای باقیمانده کوچک باقی مانده را میگیرد و آن را به یک بیت علامت واحد، مثبت یا منفی، با صفر ثابت ذخیره شده کاهش میدهد.
گوگل میگوید نتیجه یک برآوردگر بدون تعصب ریاضی برای محاسبات توجه است که مدلهای ترنسفورمر را هدایت میکند.
در معیارهای استفاده از Gemma و Mistral، TurboQuant با عملکرد دقت کامل تحت فشردهسازی 4 برابری مطابقت داشت، از جمله دقت بازیابی کامل در وظایف سوزن در انبار کاه تا 104,000 توکن.
برای زمینه اینکه چرا این معیارها مهم هستند، گسترش زمینه قابل استفاده یک مدل بدون از دست دادن کیفیت یکی از سختترین مشکلات در استقرار LLM بوده است.
حالا، متن ریز.
"صفر از دست دادن دقت" برای فشردهسازی حافظه پنهان KV در طول استنتاج اعمال میشود—نه برای وزنهای مدل. فشردهسازی وزنها یک مشکل کاملاً متفاوت و سختتر است. TurboQuant به آنها دست نمیزند.
آنچه فشرده میکند حافظه موقت ذخیره محاسبات توجه در میان جلسه است، که بخشندهتر است زیرا آن دادهها به صورت نظری قابل بازسازی هستند.
همچنین شکاف بین یک معیار تمیز و یک سیستم تولید که میلیاردها درخواست را سرویس میدهد وجود دارد. TurboQuant بر روی مدلهای متنباز آزمایش شد—Gemma، Mistral، Llama—نه پشته Gemini خود گوگل در مقیاس.
برخلاف دستاوردهای کارایی DeepSeek، که نیاز به تصمیمات معماری عمیق از همان ابتدا داشت، TurboQuant نیاز به آموزش مجدد یا تنظیم دقیق ندارد و ادعا میکند سربار زمان اجرای ناچیزی دارد. در تئوری، مستقیماً به خطوط لوله استنتاج موجود اضافه میشود.
این بخشی است که بخش سختافزار حافظه را ترساند—زیرا اگر در تولید کار کند، هر آزمایشگاه بزرگ هوش مصنوعی با همان GPU هایی که در حال حاضر دارند نابتر اجرا میشود.
این مقاله به ICLR 2026 میرود. تا زمانی که در تولید ارسال شود، عنوان "صفر از دست دادن" در آزمایشگاه باقی میماند.
خبرنامه گزارش روزانه
هر روز را با داستانهای خبری برتر در حال حاضر، به علاوه ویژگیهای اصلی، پادکست، ویدیوها و موارد بیشتر شروع کنید.
منبع: https://decrypt.co/362384/google-shrinks-ai-memory-no-accuracy-loss




