PANews poinformował 21 marca, że Tether ogłosił wydanie wieloplatformowego frameworka do dostrajania BitNet LoRA w QVAC Fabric, umożliwiającego optymalizację treningu i inferencji Microsoft BitNet (1-bitowy LLM). Ten framework znacząco redukuje wymagania dotyczące mocy obliczeniowej i pamięci, pozwalając na trening i dostrajanie modeli z miliardami parametrów na laptopach, kartach graficznych klasy konsumenckiej i smartfonach.
To rozwiązanie jako pierwsze umożliwia dostrajanie modelu BitNet na mobilnych GPU (w tym Adreno, Mali i Apple Bionic). Testy pokazują, że model z 125 milionami parametrów można dostroić w około 10 minut, model z 1 miliardem parametrów w około godzinę, a można go nawet rozszerzyć do modelu z 13 miliardami parametrów na urządzeniach mobilnych.

Ponadto framework obsługuje heterogeniczny sprzęt, taki jak Intel, AMD i Apple Silicon, i po raz pierwszy osiąga 1-bitowe dostrajanie LLM LoRA na urządzeniach innych niż NVIDIA. Pod względem wydajności model BitNet osiąga prędkość inferencji od 2 do 11 razy szybszą na mobilnych GPU niż na CPU, przy jednoczesnym zmniejszeniu zużycia pamięci o około 77,8% w porównaniu z tradycyjnymi 16-bitowymi modelami.
Tether stwierdził, że ta technologia ma potencjał, aby przełamać zależność od wysokiej mocy obliczeniowej i infrastruktury chmurowej, promować rozwój treningu AI w kierunku decentralizacji i lokalizacji oraz zapewnić podstawę dla nowych scenariuszy aplikacyjnych, takich jak uczenie federacyjne.


