Grupa Badań AI firmy Tether opublikowała produkcyjną wersję open-source TurboQuant – algorytmu kompresji pamięci pierwotnie opracowanego przez Google Research.
Wydanie jest częścią QVAC SDK 0.12.0 i jest skierowane do laptopów, telefonów, urządzeń brzegowych oraz sieci zdecentralizowanych. Umożliwia lokalnym modelom AI obsługę dłuższych sesji bez polegania na infrastrukturze chmurowej.
Oznacza to praktyczną zmianę w sposobie, w jaki AI działająca na urządzeniu zarządza zadaniami wymagającymi dużej ilości pamięci.
Pamięć od dawna stanowiła barierę dla uruchamiania wydajnych modeli AI na sprzęcie konsumenckim. Gdy asystent AI przetwarza długi dokument lub rozmowę, przechowuje ten kontekst w tak zwanej pamięci podręcznej KV.
Przy około 262 000 tokenach pamięć podręczna KV dla modelu 4B może sama zużywać około 8 GB pamięci. Cztery równoczesne sesje mogą zwiększyć tę wartość do 32 GB, nie licząc samego modelu.
TurboQuant rozwiązuje ten problem, kompresując pamięć podręczną KV nawet pięciokrotnie, zachowując jednocześnie jakość wyników zbliżoną do modelu bez kompresji.
Użytkownik może teraz poprosić asystenta działającego na laptopie o przeanalizowanie stustronicowego dokumentu prawnego bez przesyłania go na zdalny serwer.
Studenci, deweloperzy, dziennikarze i badacze mogą korzystać z dłuższych, bardziej kontekstowo świadomych sesji AI na urządzeniach, które już posiadają.
Mówiąc o szerszych powodach stojących za tym wydaniem, dyrektor generalny Tether Paolo Ardoino wskazał na przepaść między badaniami a praktycznym oprogramowaniem.
"Badania Google wykazały, że pamięć AI może być kompresowana znacznie wydajniej, niż większość ludzi zakładała," powiedział. "Nasza praca wprowadza ten przełom do oprogramowania produkcyjnego, z którym deweloperzy, startupy i użytkownicy mogą faktycznie budować."
Wydanie produkcyjne zawiera pełny potok kwantyzacji, adaptery frameworków, dokumentację dla deweloperów oraz profile dostosowane do obciążeń.
Komponenty te są zaprojektowane dla rzeczywistych środowisk poza hiperkalowymi centrami danych, obejmując ograniczoną pamięć, mieszany sprzęt oraz wdrożenia wrażliwe na opóźnienia.
TurboQuant jest dostarczany jako część QVAC SDK 0.12.0, zintegrowany bezpośrednio z Fabric – kluczowym komponentem stosu QVAC.
Fabric zaczął jako fork llama.cpp i od tego czasu rozrósł się, włączając wiele osiągnięć badawczych. SDK zapewnia deweloperom ujednolicony zestaw narzędzi, bibliotek i komponentów środowiska uruchomieniowego do budowania lokalnych aplikacji AI.
Dla startupów i niezależnych deweloperów usuwa to założenie, że duże produkty AI wymagają kosztownych klastrów GPU.
Zespoły mogą teraz projektować z myślą o dłuższych oknach kontekstu, większych obciążeniach plikami i elastycznym wdrożeniu na sprzęcie konsumenckim i brzegowym. Otwiera to praktyczne ścieżki do budowania produktów AI bez architektury opartej wyłącznie na chmurze.
Odnosząc się do obaw dotyczących prywatności danych i zależności od chmury, Ardoino argumentował za utrzymywaniem zadań AI na lokalnych urządzeniach.
"Ludzie powinni móc poprosić asystenta AI o przeczytanie długiego dokumentu lub przetworzenie prywatnych informacji bez konieczności kierowania każdego zadania przez zdalne centrum danych," powiedział. TurboQuant w tym sensie daje lokalnej AI więcej przestrzeni operacyjnej.
Strategia Tether koncentruje się na AI działającej bliżej użytkowników, na urządzeniach osobistych i w sieciach zdecentralizowanych. Firma postrzega wydajność oprogramowania i przenośność jako czynniki definiujące kolejną fazę rozwoju AI, obok infrastruktury obliczeniowej na dużą skalę.
Wpis Tether Brings Google's TurboQuant to Production, Unlocking Long-Context AI on Everyday Devices pojawił się najpierw na Blockonomi.


