Google ลดหน่วยความจำ AI โดยไม่สูญเสียความแม่นยำ—แต่มีข้อแม้

สรุปสั้น ๆ

Google กล่าวว่าอัลกอริทึม TurboQuant สามารถลดปัญหาคอขวด AI memory ที่สำคัญได้อย่างน้อย 6 เท่า โดยไม่สูญเสียความแม่นยำระหว่างการ inference
หุ้นหน่วยความจำรวมถึง Micron, Western Digital และ Seagate ปรับตัวลงหลังจากเอกสารเผยแพร่
วิธีการนี้บีบอัดหน่วยความจำ inference ไม่ใช่ model weights และได้รับการทดสอบเฉพาะใน research benchmarks

Google Research เผยแพร่ TurboQuant เมื่อวันพุธ ซึ่งเป็นอัลกอริทึมการบีบอัดที่ลดปัญหาคอขวด inference-memory ที่สำคัญได้อย่างน้อย 6 เท่า พร้อมรักษาความแม่นยำไว้ได้อย่างสมบูรณ์

เอกสารนี้กำหนดจะนำเสนอที่ ICLR 2026 และมีปฏิกิริยาตอบรับทางออนไลน์ทันที

Matthew Prince CEO ของ Cloudflare เรียกว่าเป็นช่วงเวลา DeepSeek ของ Google ราคาหุ้นหน่วยความจำรวมถึง Micron, Western Digital และ Seagate ปรับตัวลงในวันเดียวกัน

แล้วมันเป็นจริงหรือไม่?

ประสิทธิภาพการ quantization เป็นความสำเร็จที่ยิ่งใหญ่ในตัวเอง แต่ "ไม่สูญเสียความแม่นยำเลย" ต้องการบริบท

TurboQuant มุ่งเป้าไปที่ KV cache ซึ่งเป็นส่วนของหน่วยความจำ GPU ที่เก็บทุกอย่างที่ language model ต้องจดจำระหว่างการสนทนา

เมื่อหน้าต่างบริบทขยายไปสู่หลายล้าน tokens แคชเหล่านั้นจะพองตัวเป็นหลายร้อย gigabytes ต่อเซสชัน นั่นคือคอขวดจริง ๆ ไม่ใช่พลังการคำนวณ แต่เป็นหน่วยความจำดิบ

วิธีการบีบอัดแบบดั้งเดิมพยายามลดขนาดแคชเหล่านั้นโดยการปัดเศษตัวเลขลง เช่น จาก 32-bit floats เป็น 16, 8 ถึง 4-bit integers เพื่อให้เข้าใจได้ดีขึ้น ลองนึกถึงการลดขนาดภาพจาก 4K เป็น full HD เป็น 720p เป็นต้น ง่ายที่จะบอกว่ามันเป็นภาพเดียวกันโดยรวม แต่มีรายละเอียดมากกว่าในความละเอียด 4K

จุดที่ต้องระวัง: พวกเขาต้องเก็บ "quantization constants" พิเศษไว้ข้างข้อมูลที่บีบอัดเพื่อไม่ให้โมเดลทำงานผิดพลาด ค่าคงที่เหล่านั้นเพิ่ม 1 ถึง 2 bits ต่อค่า ซึ่งทำให้ผลประโยชน์ลดลงบางส่วน

TurboQuant อ้างว่าขจัด overhead นั้นออกไปโดยสิ้นเชิง

มันทำเช่นนี้ผ่าน sub-algorithms สองตัว PolarQuant แยกขนาดออกจากทิศทางใน vectors และ QJL (Quantized Johnson-Lindenstrauss) นำ residual error เล็ก ๆ ที่เหลือและลดลงเป็น sign bit เดียว บวกหรือลบ โดยไม่มีค่าคงที่ที่เก็บไว้เลย

ผลลัพธ์ Google กล่าวว่าเป็น mathematically unbiased estimator สำหรับการคำนวณ attention ที่ขับเคลื่อน transformer models

ใน benchmarks ที่ใช้ Gemma และ Mistral, TurboQuant ตรงกับประสิทธิภาพความแม่นยำเต็มภายใต้การบีบอัด 4 เท่า รวมถึงความแม่นยำในการดึงข้อมูลที่สมบูรณ์แบบใน needle-in-haystack tasks สูงถึง 104,000 tokens

เพื่อให้เข้าใจว่าทำไม benchmarks เหล่านั้นจึงสำคัญ การขยายบริบทที่ใช้งานได้ของโมเดลโดยไม่สูญเสียคุณภาพเป็นหนึ่งในปัญหาที่ยากที่สุดใน LLM deployment

ตอนนี้ รายละเอียดปลีกย่อย

"ไม่สูญเสียความแม่นยำเลย" ใช้กับการบีบอัด KV cache ระหว่าง inference ไม่ใช่กับ weights ของโมเดล การบีบอัด weights เป็นปัญหาที่แตกต่างและยากกว่าโดยสิ้นเชิง TurboQuant ไม่ได้แตะต้องสิ่งเหล่านั้น

สิ่งที่มันบีบอัดคือหน่วยความจำชั่วคราวที่เก็บการคำนวณ attention กลางเซสชัน ซึ่งให้อภัยได้มากกว่าเพราะข้อมูลนั้นสามารถสร้างขึ้นใหม่ได้ในทางทฤษฎี

ยังมีช่องว่างระหว่าง benchmark ที่สะอาดกับระบบการผลิตที่ให้บริการคำขอหลายพันล้าน TurboQuant ได้รับการทดสอบบนโมเดล open-source—Gemma, Mistral, Llama—ไม่ใช่ Gemini stack ของ Google เองในระดับขนาดใหญ่

ต่างจากการได้รับประสิทธิภาพของ DeepSeek ซึ่งต้องการการตัดสินใจทางสถาปัตยกรรมลึกที่ฝังตั้งแต่เริ่มต้น TurboQuant ไม่ต้องการการ retraining หรือ fine-tuning และอ้างว่ามี runtime overhead เพียงเล็กน้อย ในทางทฤษฎี มันสามารถใช้ได้โดยตรงกับ inference pipelines ที่มีอยู่

นั่นคือส่วนที่ทำให้ภาคฮาร์ดแวร์หน่วยความจำตกใจ เพราะถ้ามันใช้งานได้จริงในการผลิต ห้องปฏิบัติการ AI หลัก ๆ ทุกแห่งจะทำงานได้อย่างคล่องตัวมากขึ้นบน GPUs เดียวกันที่พวกเขามีอยู่แล้ว

เอกสารจะไปที่ ICLR 2026 จนกว่าจะส่งมอบในการผลิต พาดหัว "ไม่สูญเสีย" จะยังคงอยู่ในห้องแล็บ