باختصار
- قالت جوجل إن خوارزمية TurboQuant الخاصة بها يمكن أن تقلل من عنق الزجاجة الرئيسي في ذاكرة الذكاء الاصطناعي بما لا يقل عن ستة أضعاف دون أي فقدان في الدقة أثناء الاستدلال.
- انخفضت أسهم الذاكرة بما في ذلك Micron وWestern Digital وSeagate بعد انتشار الورقة البحثية.
- تقوم الطريقة بضغط ذاكرة الاستدلال وليس أوزان النموذج، ولم يتم اختبارها إلا في معايير البحث.
نشرت أبحاث جوجل TurboQuant يوم الأربعاء، وهي خوارزمية ضغط تقلص عنق الزجاجة الرئيسي في ذاكرة الاستدلال بما لا يقل عن 6 أضعاف مع الحفاظ على عدم فقدان الدقة.
من المقرر تقديم الورقة البحثية في ICLR 2026، وكان رد الفعل عبر الإنترنت فوريًا.
أطلق الرئيس التنفيذي لشركة Cloudflare ماثيو برينس عليها لحظة DeepSeek الخاصة بجوجل. انخفضت أسعار أسهم الذاكرة، بما في ذلك Micron وWestern Digital وSeagate، في نفس اليوم.
فهل هو حقيقي؟
كفاءة التكميم هي إنجاز كبير بحد ذاته. لكن "عدم فقدان الدقة" يحتاج إلى سياق.
يستهدف TurboQuant ذاكرة التخزين المؤقت KV - وهي جزء من ذاكرة GPU الذي يخزن كل ما يحتاج نموذج اللغة إلى تذكره أثناء المحادثة.
مع نمو نوافذ السياق نحو ملايين الرموز المميزة، تتضخم تلك الذاكرة المؤقتة إلى مئات الجيجابايت لكل جلسة. هذا هو عنق الزجاجة الفعلي. ليس قوة الحوسبة ولكن الذاكرة الأولية.
تحاول طرق الضغط التقليدية تقليص تلك الذاكرة المؤقتة عن طريق تقريب الأرقام - من أعداد عشرية 32 بت إلى 16 إلى 8 إلى أعداد صحيحة 4 بت، على سبيل المثال. لفهم ذلك بشكل أفضل، فكر في تقليص صورة من 4K إلى full HD إلى 720p وهكذا. من السهل معرفة أنها نفس الصورة بشكل عام، ولكن هناك المزيد من التفاصيل في دقة 4K.
المشكلة: يجب عليهم تخزين "ثوابت التكميم" الإضافية جنبًا إلى جنب مع البيانات المضغوطة للحفاظ على النموذج من التدهور. تضيف هذه الثوابت من 1 إلى 2 بت لكل قيمة، مما يؤدي إلى تآكل المكاسب جزئيًا.
يدعي TurboQuant أنه يزيل هذه النفقات الإضافية بالكامل.
يقوم بذلك عبر خوارزميتين فرعيتين. يفصل PolarQuant الحجم عن الاتجاه في المتجهات، ويأخذ QJL (Quantized Johnson-Lindenstrauss) الخطأ المتبقي الصغير المتبقي ويقلله إلى بت إشارة واحد، موجب أو سالب، مع عدم تخزين ثوابت.
النتيجة، تقول جوجل، هي مقدر غير متحيز رياضيًا لحسابات الانتباه التي تقود نماذج المحول.
في المعايير باستخدام Gemma وMistral، طابق TurboQuant أداء الدقة الكاملة تحت ضغط 4x، بما في ذلك دقة استرجاع مثالية في مهام البحث عن إبرة في كومة قش حتى 104,000 رمز مميز.
بالنسبة للسياق حول سبب أهمية تلك المعايير، كان توسيع السياق القابل للاستخدام للنموذج دون فقدان الجودة أحد أصعب المشاكل في نشر LLM.
الآن، التفاصيل الدقيقة.
ينطبق "عدم فقدان الدقة" على ضغط ذاكرة التخزين المؤقت KV أثناء الاستدلال - وليس على أوزان النموذج. ضغط الأوزان مشكلة مختلفة تمامًا وأصعب. لا يتعامل TurboQuant مع تلك.
ما يضغطه هو الذاكرة المؤقتة التي تخزن حسابات الانتباه في منتصف الجلسة، وهو أكثر تسامحًا لأنه يمكن نظريًا إعادة بناء تلك البيانات.
هناك أيضًا الفجوة بين معيار نظيف ونظام إنتاج يخدم مليارات الطلبات. تم اختبار TurboQuant على نماذج مفتوحة المصدر - Gemma وMistral وLlama - وليس على مجموعة Gemini الخاصة بجوجل على نطاق واسع.
على عكس مكاسب الكفاءة في DeepSeek، والتي تتطلب قرارات معمارية عميقة مدمجة منذ البداية، لا يتطلب TurboQuant إعادة تدريب أو ضبط دقيق ويدعي أن النفقات الإضافية لوقت التشغيل ضئيلة. من الناحية النظرية، ينسجم مباشرة في خطوط أنابيب الاستدلال الحالية.
هذا هو الجزء الذي أخاف قطاع أجهزة الذاكرة - لأنه إذا نجح في الإنتاج، فإن كل مختبر ذكاء اصطناعي رئيسي يعمل بكفاءة أكبر على نفس وحدات GPU التي يمتلكها بالفعل.
تذهب الورقة البحثية إلى ICLR 2026. حتى يتم شحنها في الإنتاج، يبقى عنوان "عدم الفقدان" في المختبر.
النشرة الإخبارية اليومية
ابدأ كل يوم بأهم الأخبار الآن، بالإضافة إلى ميزات أصلية وبودكاست ومقاطع فيديو والمزيد.
المصدر: https://decrypt.co/362384/google-shrinks-ai-memory-no-accuracy-loss



