Lühidalt
- Google ütles, et selle TurboQuant-algoritm suudab vähendada olulist AI mäluahelat vähemalt kuus korda ilma täpsuse kaotuseta järeldamisel.
- Mäluaktsiad, sealhulgas Micron, Western Digital ja Seagate, kukkusid pärast artikli levimist.
- See meetod tihendab järeldamise mälu, mitte mudeli kaalasid, ja seda on testitud seni ainult teadusuuringute võrdlustes.
Google Research avaldas kolmapäeval TurboQuanti – tihendusalgoritmi, mis vähendab olulist järeldamise mäluahelat vähemalt 6-kordselt, säilitades samas täpsuse täielikult.
Artikkel on plaanitud esitada ICLR 2026 konverentsil ja reageerimine võrgus oli kohe järgnev.
Cloudflare'i tegevjuht Matthew Prince nimetas seda Google’i DeepSeek-momendiks. Mäluaktsiate hinnad, sealhulgas Microni, Western Digitali ja Seagate’i, langesid samal päeval.
Kas see on siis tõeline?
Kvantiseerimise tõhusus on ise omaette suur saavutus. Kuid „null täpsuse kaotust“ tuleb mõista kontekstis.
TurboQuant sihib KV-vahemälu – GPU mälu osa, kus salvestatakse kõik, mida keelemudel peab vestluse ajal meeles pidama.
Nii nagu kontekstiaknad kasvavad miljonite tokenite suunas, paisuvad need vahemälud igas seansis sadade gigabaitide suuruseks. See ongi tegelik ahel. Mitte arvutusvõimsus, vaid toor-mälu.
Tavalised tihendusmeetodid püüavad neid vahemälusid vähendada numbrite ümardamisega – näiteks 32-bitiste ujukomaarvudest 16-bitisteks, 8-bitisteks või 4-bitisteks täisarvudeks. Selle paremaks mõistmiseks võib mõelda pildi vähenemisest 4K-st täis-HD-ni ja edasi 720p-ni. On lihtne tuvastada, et tegu on sama pildiga, kuid 4K-resolutsioonis on rohkem detaili.
Probleem: neil tuleb tihendatud andmete kõrval salvestada lisaks „kvantiseerimiskonstandid“, et mudel ei hakkaks eksima. Need konstandid lisavad 1–2 bitti iga väärtuse kohta ja nii osaliselt kaovad ka tihendusel saavutatud eelised.
TurboQuant väidab, et see ülekanne on täielikult kõrvaldatud.
Selle saavutamiseks kasutatakse kahte alamalgoritmi. PolarQuant eraldab vektorites suuruse suunast ja QJL (kvantiseeritud Johnson–Lindenstrauss) võtab ülejäänud väikese jääkvea ja vähendab selle üheks märgibitiks – positiivseks või negatiivseks – ilma mingite salvestatud konstantideta.
Google väidab, et tulemus on matemaatiliselt ebasiduslik hinnang tähelepanu arvutustele, mis juhivad transformaatorimudeleid.
Võrdlustes Gemma ja Mistrali kasutades vastas TurboQuant täispõhjaliku täpsusega jõudlusele 4-kordse tihenduse korral, sealhulgas täiusliku taastamise täpsusega „nõela heinakupjas“ ülesannetes kuni 104 000 tokenni puhul.
Selleks, et mõista, miks need võrdlused olulised on, on mudeli kasutatava konteksti laiendamine ilma kvaliteedi kaotuseta olnud üks raskemaid probleeme LLM-i deployimisel.
Nüüd aga väike printimata tekst.
„Null täpsuse kaotust“ kehtib KV-vahemälu tihendamisele järeldamise ajal – mitte mudeli kaaladele. Kaalade tihendamine on täiesti erinev ja keerulisem probleem. TurboQuant ei puuduta neid.
Mis seda tihendab, on ajutine mälu, kus salvestatakse seansi keskel toimuvad tähelepanu arvutused – see on pigem lubav, kuna seda andmeid saab teoreetiliselt taastada.
Samuti on olemas lünk teadusuuringute puhtate võrdluste ja tootmisüsteemi vahel, mis teenindab miljardeid päringuid. TurboQuanti on testitud avatud lähtekoodiga mudelite – Gemma, Mistral ja Llama – põhjal, mitte Google’i enda Gemini stacki skaalas.
Erinevalt DeepSeek’i tõhususe parandustest, mis nõudsid sügavat arhitektuurilist otsust, mis oli algusest peale sisse ehitatud, ei nõua TurboQuant ümberõpet ega täpsustamist ning väidab väga väikest käivitusajaliseid kulutusi. Teoreetiliselt saab selle otse paigaldada olemasolevasse järeldamise torujuhtmesse.
See osa põhjustas mäluhardvarasektoris segadust – kuna kui see töötab tootmisrežiimis, siis saavad kõik suured AI-laborid oma olemasolevates GPU-des tõhusamalt töötada.
Artikkel esitatakse ICLR 2026 konverentsil. Seni, kuni see jõuab tootmisse, jääb „null kaotust“ pealkiri laborisse.
Igapäevane Debrief-uudiskiri
Alusta iga päeva üleüldistest uuestest uudistest kohe, lisaks originaalartiklitele, podcastile, videotele ja muule sisule.
Allikas: https://decrypt.co/362384/google-shrinks-ai-memory-no-accuracy-loss




