กลุ่มวิจัย AI ของ Tether ได้เปิดตัวเวอร์ชัน production แบบโอเพนซอร์สของ TurboQuant ซึ่งเป็นอัลกอริทึมบีบอัดหน่วยความจำที่พัฒนาขึ้นโดย Google Research
การเปิดตัวนี้เป็นส่วนหนึ่งของ QVAC SDK 0.12.0 และมุ่งเป้าไปที่แล็ปท็อป โทรศัพท์ อุปกรณ์ edge และเครือข่ายแบบกระจายศูนย์ ช่วยให้โมเดล AI ในเครื่องจัดการ session ที่ยาวขึ้นได้โดยไม่ต้องพึ่งพาโครงสร้างพื้นฐานคลาวด์
นี่ถือเป็นการเปลี่ยนแปลงเชิงปฏิบัติในวิธีที่ AI บนอุปกรณ์จัดการงานที่ต้องใช้หน่วยความจำสูง
หน่วยความจำเป็นอุปสรรคมายาวนานในการรันโมเดล AI ที่มีประสิทธิภาพบนฮาร์ดแวร์สำหรับผู้บริโภค เมื่อผู้ช่วย AI ประมวลผลเอกสารหรือบทสนทนาที่ยาว ระบบจะเก็บบริบทนั้นไว้ในสิ่งที่เรียกว่า KV cache
ที่ประมาณ 262,000 token KV cache ของโมเดล 4B อาจใช้หน่วยความจำราว 8 GB เพียงอย่างเดียว การรันสี่ session พร้อมกันอาจผลักตัวเลขนั้นไปถึง 32 GB ก่อนที่จะนับตัวโมเดลเอง
TurboQuant แก้ปัญหานี้โดยบีบอัด KV cache ได้สูงสุดถึงห้าเท่า ขณะที่ยังคงคุณภาพของผลลัพธ์ใกล้เคียงกับโมเดลที่ไม่ได้บีบอัด
ผู้ใช้สามารถขอให้ผู้ช่วยบนแล็ปท็อปวิเคราะห์เอกสารกฎหมายหนึ่งร้อยหน้าได้โดยไม่ต้องอัปโหลดไปยังเซิร์ฟเวอร์ระยะไกล
นักเรียน นักพัฒนา นักข่าว และนักวิจัย ต่างสามารถได้รับประโยชน์จาก AI session ที่ยาวขึ้นและรับรู้บริบทได้ดีขึ้น บนอุปกรณ์ที่พวกเขามีอยู่แล้ว
เมื่อพูดถึงเหตุผลเบื้องหลังการเปิดตัวในวงกว้าง CEO ของ Tether อย่าง Paolo Ardoino ได้ชี้ให้เห็นถึงช่องว่างระหว่างงานวิจัยและซอฟต์แวร์เชิงปฏิบัติ
"งานวิจัยของ Google แสดงให้เห็นว่าหน่วยความจำ AI สามารถบีบอัดได้อย่างมีประสิทธิภาพมากกว่าที่คนส่วนใหญ่คิด" เขากล่าว "งานของเราได้นำความก้าวหน้านั้นมาสู่ซอฟต์แวร์ production ที่นักพัฒนา สตาร์ทอัพ และผู้ใช้สามารถนำไปสร้างได้จริง"
การเปิดตัวเวอร์ชัน production ประกอบด้วย pipeline การ quantization แบบเต็มรูปแบบ framework adapter เอกสารสำหรับนักพัฒนา และโปรไฟล์ที่ปรับแต่งตามปริมาณงาน
ส่วนประกอบเหล่านี้ได้รับการออกแบบสำหรับสภาพแวดล้อมจริงนอกเหนือจาก data center ขนาด hyperscale ครอบคลุมหน่วยความจำที่จำกัด ฮาร์ดแวร์แบบผสม และการ deploy ที่ไวต่อ latency
TurboQuant มาพร้อมกับ QVAC SDK 0.12.0 โดยรวมเข้ากับ Fabric โดยตรง ซึ่งเป็นส่วนประกอบหลักของ QVAC stack
Fabric เริ่มต้นจากการ fork llama.cpp และได้เติบโตขึ้นเพื่อรวมความก้าวหน้าด้านการวิจัยหลายอย่าง SDK มอบชุดเครื่องมือ ไลบรารี และส่วนประกอบ runtime แบบรวมศูนย์สำหรับนักพัฒนาในการสร้างแอปพลิเคชัน AI ในเครื่อง
สำหรับสตาร์ทอัพและนักพัฒนาอิสระ สิ่งนี้ช่วยขจัดความเชื่อที่ว่าผลิตภัณฑ์ AI ขนาดใหญ่ต้องการคลัสเตอร์ GPU ราคาแพง
ทีมงานสามารถออกแบบสำหรับ context window ที่ยาวขึ้น ปริมาณงานไฟล์ที่ใหญ่ขึ้น และการ deploy ที่ยืดหยุ่นบนฮาร์ดแวร์สำหรับผู้บริโภคและ edge ซึ่งเปิดเส้นทางเชิงปฏิบัติในการสร้างผลิตภัณฑ์ AI โดยไม่ต้องพึ่งสถาปัตยกรรมคลาวด์เพียงอย่างเดียว
เพื่อแก้ไขข้อกังวลเกี่ยวกับความเป็นส่วนตัวของข้อมูลและการพึ่งพาคลาวด์ Ardoino ได้สนับสนุนการเก็บงาน AI ไว้บนอุปกรณ์ในเครื่อง
"ผู้คนควรสามารถขอให้ผู้ช่วย AI อ่านเอกสารที่ยาวหรือจัดการข้อมูลส่วนตัวได้ โดยไม่ต้องบังคับให้ทุกงานผ่าน data center ระยะไกล" เขากล่าว TurboQuant ในแง่นั้น มอบพื้นที่ปฏิบัติการที่มากขึ้นให้กับ AI ในเครื่อง
กลยุทธ์ของ Tether มุ่งเน้นที่ AI ที่ทำงานใกล้ชิดผู้ใช้มากขึ้น ทั้งบนอุปกรณ์ส่วนตัวและเครือข่ายแบบกระจายศูนย์ บริษัทมองว่าประสิทธิภาพซอฟต์แวร์และความสามารถในการพกพาเป็นปัจจัยสำคัญในระยะต่อไปของการพัฒนา AI ควบคู่ไปกับโครงสร้างพื้นฐานการประมวลผลขนาดใหญ่
The post Tether Brings Google's TurboQuant to Production, Unlocking Long-Context AI on Everyday Devices appeared first on Blockonomi.


