TLDR: TurboQuant kompresuje pamięć podręczną KV AI nawet pięciokrotnie przy minimalnym wpływie na jakość modelu. Ulepszenie umożliwia laptopom i telefonom dłuższe uruchamianie AITLDR: TurboQuant kompresuje pamięć podręczną KV AI nawet pięciokrotnie przy minimalnym wpływie na jakość modelu. Ulepszenie umożliwia laptopom i telefonom dłuższe uruchamianie AI

Tether wprowadza Google TurboQuant do produkcji, odblokowując długokontekstową sztuczną inteligencję na codziennych urządzeniach

2026/06/02 07:46
3 min. lektury
W przypadku uwag lub wątpliwości dotyczących niniejszej treści skontaktuj się z nami pod adresem crypto.news@mexc.com

TLDR:

  • TurboQuant kompresuje pamięć podręczną KV AI nawet pięciokrotnie, przy minimalnym wpływie na jakość modelu.
  • Aktualizacja umożliwia laptopom i telefonom prowadzenie dłuższych sesji AI bez zależności od chmury.
  • QVAC SDK 0.12.0 integruje TurboQuant z Fabric, rozszerzając możliwości lokalnego tworzenia aplikacji AI.
  • Tether dąży do rozwijania AI skoncentrowanej na prywatności, przybliżając wydajne wnioskowanie do użytkowników końcowych.

Grupa Badań AI firmy Tether opublikowała produkcyjną wersję open-source TurboQuant – algorytmu kompresji pamięci pierwotnie opracowanego przez Google Research.

Wydanie jest częścią QVAC SDK 0.12.0 i jest skierowane do laptopów, telefonów, urządzeń brzegowych oraz sieci zdecentralizowanych. Umożliwia lokalnym modelom AI obsługę dłuższych sesji bez polegania na infrastrukturze chmurowej.

Oznacza to praktyczną zmianę w sposobie, w jaki AI działająca na urządzeniu zarządza zadaniami wymagającymi dużej ilości pamięci.

TurboQuant kompresuje pamięć AI nawet pięciokrotnie

Pamięć od dawna stanowiła barierę dla uruchamiania wydajnych modeli AI na sprzęcie konsumenckim. Gdy asystent AI przetwarza długi dokument lub rozmowę, przechowuje ten kontekst w tak zwanej pamięci podręcznej KV.

Przy około 262 000 tokenach pamięć podręczna KV dla modelu 4B może sama zużywać około 8 GB pamięci. Cztery równoczesne sesje mogą zwiększyć tę wartość do 32 GB, nie licząc samego modelu.

TurboQuant rozwiązuje ten problem, kompresując pamięć podręczną KV nawet pięciokrotnie, zachowując jednocześnie jakość wyników zbliżoną do modelu bez kompresji.

Użytkownik może teraz poprosić asystenta działającego na laptopie o przeanalizowanie stustronicowego dokumentu prawnego bez przesyłania go na zdalny serwer.

Studenci, deweloperzy, dziennikarze i badacze mogą korzystać z dłuższych, bardziej kontekstowo świadomych sesji AI na urządzeniach, które już posiadają.

Mówiąc o szerszych powodach stojących za tym wydaniem, dyrektor generalny Tether Paolo Ardoino wskazał na przepaść między badaniami a praktycznym oprogramowaniem.

"Badania Google wykazały, że pamięć AI może być kompresowana znacznie wydajniej, niż większość ludzi zakładała," powiedział. "Nasza praca wprowadza ten przełom do oprogramowania produkcyjnego, z którym deweloperzy, startupy i użytkownicy mogą faktycznie budować."

Wydanie produkcyjne zawiera pełny potok kwantyzacji, adaptery frameworków, dokumentację dla deweloperów oraz profile dostosowane do obciążeń.

Komponenty te są zaprojektowane dla rzeczywistych środowisk poza hiperkalowymi centrami danych, obejmując ograniczoną pamięć, mieszany sprzęt oraz wdrożenia wrażliwe na opóźnienia.

QVAC SDK 0.12.0 rozszerza możliwości lokalnego tworzenia aplikacji AI

TurboQuant jest dostarczany jako część QVAC SDK 0.12.0, zintegrowany bezpośrednio z Fabric – kluczowym komponentem stosu QVAC.

Fabric zaczął jako fork llama.cpp i od tego czasu rozrósł się, włączając wiele osiągnięć badawczych. SDK zapewnia deweloperom ujednolicony zestaw narzędzi, bibliotek i komponentów środowiska uruchomieniowego do budowania lokalnych aplikacji AI.

Dla startupów i niezależnych deweloperów usuwa to założenie, że duże produkty AI wymagają kosztownych klastrów GPU.

Zespoły mogą teraz projektować z myślą o dłuższych oknach kontekstu, większych obciążeniach plikami i elastycznym wdrożeniu na sprzęcie konsumenckim i brzegowym. Otwiera to praktyczne ścieżki do budowania produktów AI bez architektury opartej wyłącznie na chmurze.

Odnosząc się do obaw dotyczących prywatności danych i zależności od chmury, Ardoino argumentował za utrzymywaniem zadań AI na lokalnych urządzeniach.

"Ludzie powinni móc poprosić asystenta AI o przeczytanie długiego dokumentu lub przetworzenie prywatnych informacji bez konieczności kierowania każdego zadania przez zdalne centrum danych," powiedział. TurboQuant w tym sensie daje lokalnej AI więcej przestrzeni operacyjnej.

Strategia Tether koncentruje się na AI działającej bliżej użytkowników, na urządzeniach osobistych i w sieciach zdecentralizowanych. Firma postrzega wydajność oprogramowania i przenośność jako czynniki definiujące kolejną fazę rozwoju AI, obok infrastruktury obliczeniowej na dużą skalę.

Wpis Tether Brings Google's TurboQuant to Production, Unlocking Long-Context AI on Everyday Devices pojawił się najpierw na Blockonomi.

Okazja rynkowa
Logo Gensyn
Cena Gensyn(AI)
$0,03126
$0,03126$0,03126
-%2,76
USD
Gensyn (AI) Wykres Ceny na Żywo

SPACEX(PRE) Launchpad

SPACEX(PRE) LaunchpadSPACEX(PRE) Launchpad

Register for a chance to win a free lucky draw

Zastrzeżenie: Artykuły udostępnione na tej stronie pochodzą z platform publicznych i służą wyłącznie celom informacyjnym. Niekoniecznie odzwierciedlają poglądy MEXC. Wszystkie prawa pozostają przy pierwotnych autorach. Jeśli uważasz, że jakakolwiek treść narusza prawa stron trzecich, skontaktuj się z crypto.news@mexc.com w celu jej usunięcia. MEXC nie gwarantuje dokładności, kompletności ani aktualności treści i nie ponosi odpowiedzialności za jakiekolwiek działania podjęte na podstawie dostarczonych informacji. Treść nie stanowi porady finansowej, prawnej ani innej profesjonalnej porady, ani nie powinna być traktowana jako rekomendacja lub poparcie ze strony MEXC.

RealStocks Now Live

RealStocks Now LiveRealStocks Now Live

Trade real U.S. stock via regulated brokerage