Google promuje WAXAL, otwarty zbiór danych mowy z Google Research Africa, zawierający wiele rodzimych języków afrykańskichGoogle promuje WAXAL, otwarty zbiór danych mowy z Google Research Africa, zawierający wiele rodzimych języków afrykańskich

Jak Google chce nauczyć sztuczną inteligencję 2000 języków Afryki

2026/02/12 21:33
9 min. lektury

Gdy Abdoulaye Diack, menedżer programu w Google Research, dziale Google poświęconym rozwijaniu najnowocześniejszych rozwiązań w informatyce i wdrażaniu tych przełomów do rzeczywistych problemów, mówi o pochodzeniu WAXAL, otwartego zbioru danych mowy z Google Research Africa, zaczyna od jednego słowa. 

„WAXAL oznacza 'mówienie'" – powiedział TechCabal, zwracając uwagę na jego korzenie w języku wolof, języku szeroko rozpowszechnionym w regionie Senegambii. 

Nazwa, wybrana w 2020 roku przez senegalskiego kierownika badań w Google, Moustaphe Cisse, odzwierciedla większą prawdę o trajektorii AI w Afryce: na kontynencie z ponad 2000 językami, z których większość jest mówiona, a nie pisana, głos nie jest opcjonalny; jest punktem wejścia.

Przez lata technologia cyfrowa koncentrowała się na piśmienności, klawiaturach i tekście. Ale w Afryce język żyje w rozmowie, na targach, farmach, w klinikach i domach. AI, które nie potrafi analizować akcentów, intonacji lub przełączania kodów, nie może w znaczący sposób służyć większości Afrykanów. WAXAL ma to zmienić. Zamiast skupiać się wyłącznie na tłumaczeniu tekstu, projekt tworzy fundamentalną infrastrukturę dla AI mowa-do-mowy w afrykańskich językach o niskich zasobach, koncentrując się na budowaniu obszernego, wysokiej jakości centrum językowego „surowca".

„Posiadanie AI, które może mówić do nas w naszym języku i nas rozumieć, czy to nasz akcent, czy intonacja, jest naprawdę dość ważne" – powiedział Diack.

Niekorzystna sytuacja w zakresie danych

Wyzwanie zaczyna się od rażącej nierównowagi. Ponad 50% wszystkich stron internetowych jest w języku angielskim i kilku językach zachodnich. Ponad 2000 języków afrykańskich ledwo rejestruje się w globalnych zbiorach danych cyfrowych. Większość jest niedostatecznie reprezentowana online. Wiele nie jest obszernie pisanych. Niektóre w ogóle nie są standaryzowane.

Jeśli modele AI są trenowane na tekście cyfrowym, a tekst cyfrowy prawie nie istnieje dla języków afrykańskich, to kontynent rozpoczyna wyścig AI ze strukturalną wadą.

„To nie jest nowy problem" – powiedział Diack. „Ludzie w badaniach są świadomi tej ogromnej luki w braku danych".

Bez danych modele nie mogą być trenowane. Bez wytrenowanych modeli systemy AI źle słyszą, źle tłumaczą lub ignorują całe populacje. Diack opowiada o powszechnej frustracji: mówieniu z frankofonicznym afrykańskim akcentem, podczas gdy system AI do robienia notatek stara się go zrozumieć. Technologia istnieje, ale nie jest dostrojona do lokalnego kontekstu.

Ta luka jest tym, co WAXAL chce zamknąć.

Budowanie fundamentu mowy

Oficjalnie uruchomiony w lutym 2026 roku po trzech latach rozwoju, WAXAL stworzył jeden z największych zbiorów danych mowy dla języków afrykańskich do tej pory: ponad 11 000 godzin nagranej mowy z prawie 2 milionów pojedynczych nagrań, obejmujących 21 języków Afryki Subsaharyjskiej, w tym hausa, joruba, luganda i aczoli.

Poza ogólnym zbieraniem mowy, Google powiedział, że zainwestował ponad 20 godzin wysokiej jakości nagrań studyjnych, aby rozwijać naturalnie brzmiące syntetyczne głosy dla asystentów głosowych. Te nagrania „studio premium" są zaprojektowane, aby odpowiedzi AI brzmiały mniej robotycznie i bardziej autentycznie kulturowo.

Google ustrukturyzował inicjatywę jako model partnerski. Uniwersytety takie jak Uniwersytet Makerere w Ugandzie i Uniwersytet Ghany prowadziły większość zbierania danych. Lokalni partnerzy zachowują własność zbiorów danych, które zostały wydane jako open source na licencjach pozwalających na komercyjne użycie.

„Zapewniliśmy głównie wytyczne i finansowanie" – wyjaśnił Diack. „Wszystkie te zbiory danych nie należą do nas. Należą do partnerów, z którymi współpracujemy".

Ambicją nie jest jedynie zasilanie własnych produktów Google, ale zasiewanie ekosystemu.

W ciągu kilku dni od wydania zbiór danych odnotował ponad 4000 pobrań, wczesną oznakę przyjęcia przez badaczy i programistów, według Diacka

Dlaczego głos ma znaczenie 

Google już oferuje narzędzia do tłumaczenia w wielu językach. Więc dlaczego zaczynać od zera?

Ponieważ tłumaczenie to nie mowa.

Tradycyjne tłumaczenie maszynowe polega na „tekście równoległym", zdaniach napisanych w jednym języku, które są dopasowane do ich odpowiedników w innym. Dla języków o niskich zasobach takie korpusy równoległe prawie nie istnieją. I nawet gdy tłumaczenie działa, nie rozwiązuje głębszego problemu: wielu Afrykanów wchodzi w interakcję z technologią głównie poprzez mowę.

„Wiele osób faktycznie nie wie, jak czytać i pisać na kontynencie" – powiedział Diack. „Głos jest zasadniczo bramą do technologii".

Wyobraź sobie rolnika w Kadunie pytającego o prognozy pogody w hausa. Lub matkę w wiejskiej ghańskiej wiosce szukającą porad żywieniowych w swoim lokalnym języku. Systemy tekstowe zakładają piśmienność i znormalizowaną pisownię. Systemy głosowe muszą nawigować dialektami, slangiem, przełączaniem kodów i nietypowymi wzorcami mowy.

W Ghanie projekt rozpoznawania mowy, inicjatywa UGSpeechData, wygenerował ponad 5000 godzin danych audio. Ta inicjatywa później umożliwiła rozwój chatbota zdrowia matki działającego w lokalnych językach. Rozszerzyła się także na pracę nad nietypową mową, pomagając społecznościom osób głuchych i osób po udarze, których wzorce mowy często wprawiają w zakłopotanie główne systemy AI.

„Systemy AI nie są do tego dostosowane" – powiedział Diack. „Jeśli masz różne typy mowy, prawdopodobnie system nie zrozumie cię".

Zatłoczone pole

Google nie jest sam w tym wyścigu.

Masakhane, oddolny kolektyw badawczy open source, zbudował systemy tłumaczenia w ponad 45 językach afrykańskich i rozwinął Lulu, punkt odniesienia do oceny modeli języków afrykańskich. Jego filozofia to społeczność-na-pierwszym-miejscu i całkowicie otwarta.

Lelapa AI z Republiki Południowej Afryki, założona przez byłych badaczy DeepMind, koncentruje się na komercyjnych produktach przetwarzania języka naturalnego (NLP) dla afrykańskich firm. Jego flagowy model, Vulavula, wychwytuje dialekty i miejskie wzorce przełączania kodów w isiZulu, Sesotho i afrikaans. Lelapa podkreśla zbiory danych „podstawowej prawdy" i intensywną analizę błędów ludzkich, kosztowne, ale wysokiej wierności podejście.

Lesan AI w Etiopii zbudowała niektóre z najbardziej precyzyjnych systemów tłumaczenia dla amharskiego, tigrinia i oromo, używając modelu człowiek-w-pętli, aby zapewnić niuans kulturowy.

Projekt No Language Left Behind (NLLB-200) Meta przyjmuje podejście masowej skali, tłumacząc na 200 języków, w tym 55 afrykańskich, używając uczenia zero-shot. Microsoft tymczasem integruje języki afrykańskie do Microsoft Translator i inwestuje w wielomodalne zbiory danych rolniczych poprzez projekty takie jak Gecko.

Inicjatywa African Next Voices finansowana przez Fundację Gatesa uruchomiona pod koniec 2025 roku, wygenerowała 9000 godzin danych mowy w 18 językach.

Ekosystem jest zróżnicowany: kolektywy open source, komercyjne startupy, giganty Big Tech, sponsorzy filantropijni. Każdy podchodzi do problemu inaczej: skala kontra głębia, tekst kontra głos, otwarte kontra własnościowe.

Wyróżnienie Google polega na jego podejściu skoncentrowanym na mowie i zorientowanym na ekosystem.

Suwerenność kontra paraliż

Jednak zaangażowanie globalnych gigantów technologicznych nieuchronnie rodzi pytania o suwerenność danych i zależność.

Jeśli Google koordynuje wydanie wielojęzycznych zbiorów danych mowy, czy to tworzy strukturalne uzależnienie od produktów Google? Czy lokalni programiści mogą stać się zależni od narzędzi osadzonych w Gemini, Search lub Android?

Diack uznaje napięcie, ale ostrzega przed tym, aby stać się tak skonfliktowanym, że nic nie jest robione w związku z przedstawioną okazją. 

„Najważniejsze jest to, że nie zostajemy w tyle" – powiedział. „Zdecydowanie nie chcę, aby moje dane były nadużywane. Ale chodzi o umożliwienie przedsiębiorcom, startupom i badaczom pracy nad danymi, które są naprawdę ważne".

Przeprowadza paralele z partnerstwami między uniwersytetami a firmami technologicznymi w Stanach Zjednoczonych i Europie. Współpraca, argumentuje, przyspiesza budowanie zdolności. Już teraz badacze zaangażowani we wczesne projekty publikowali artykuły i awansowali do globalnych ról badawczych.

Model otwartego licencjonowania jest centralny dla tego argumentu. Programiści mogą budować komercyjne produkty na zbiorach danych WAXAL bez uzależnienia od własnościowych API Google. Google wydał także modele tłumaczenia o otwartych wagach, takie jak Translate Gemma, które można pobrać i dostosować niezależnie.

Czy ta równowaga zadowoli krytyków, pozostaje do zobaczenia. Ale skala luki językowej sugeruje, że bezczynność może nieść większe ryzyko.

Infrastruktura: cichy warunek wstępny

AI głosowe nie istnieje w izolacji. Wymaga łączności, przepustowości i infrastruktury obliczeniowej.

„Nie można naprawdę trenować modeli AI bez odpowiedniej infrastruktury" – powiedział Diack.

Google zainwestował w podmorskie kable, w tym lądowanie kabla Equiano w Nigerii i innych afrykańskich rynkach, aby wzmocnić odporność szerokopasmową. Przerwania światłowodowe w ostatnich latach ujawniły kruchość sieci regionalnych. Redundantna, wysokokapacytatywna infrastruktura jest niezbędna nie tylko dla usług chmurowych, ale także dla lokalnych centrów danych, kluczowego filaru suwerenności cyfrowej.

Rozwój AI zależy od trzech fundamentów: ludzi, danych i infrastruktury. Młoda populacja Afryki, przewidywana do stanowienia dużej części globalnych użytkowników AI w nadchodzących dekadach, oferuje przewagę demograficzną. Ale bez inwestycji w zdolności badawcze i infrastrukturę cyfrową, potencjał demograficzny nie przełoży się na przywództwo technologiczne.

Wyzwanie koordynacji

Aby uniknąć fragmentacji, Google przeszedł od izolowanych partnerstw uniwersyteckich do bardziej skoordynowanych modeli współpracy. Jeden taki wysiłek obejmuje pracę z centrum językowym Masakhane i innymi sieciami wolontariuszy, aby umożliwić badaczom i startupom ubieganie się o finansowanie i wkład w wspólne zbiory danych.

„Jeśli wszyscy robimy swoje na kontynencie, to nie jest skuteczne" – powiedział Diack. „Potrzebujemy skoordynowanego wysiłku".

Jak dotąd WAXAL objął 27 języków, w tym cztery nigeryjskie. Niektóre z już objętych języków obejmują aczoli, akan, dagaare, dagbani, dholuo, ewe, fante, fulani (fula), hausa, igbo, ikposo (kposo), kikuju, lingala, luganda, malgaski, masaaba, nyankole, rukiga, shona, soga (lusoga), suahili i joruba. 

Ambicja dotycząca ponad 2000 języków afrykańskich jest aspiracyjna, być może pokoleniowa.

„To moje marzenie" – powiedział Diack.

Ale priorytetyzacja ma znaczenie. Wskazuje edukację, rolnictwo i zdrowie jako krytyczne domeny, w których AI głosowe może dostarczyć mierzalny wpływ zgodny z celami zrównoważonego rozwoju.

Prognozowanie pogody zintegrowane z Google Search, ulepszone poprzez afrykańskie inicjatywy badawcze, już демонструje globalny rozlew. Projekty wykrywania chorób manioku, takie jak PlantVillage Nuru opracowane poprzez partnerstwo między Penn State University, Międzynarodowym Instytutem Rolnictwa Tropikalnego (IITA) i Grupą Doradczą ds. Międzynarodowych Badań Rolniczych (CGIAR), wpłynęły na AI rolnicze poza Afryką. Te precedensy sugerują, że rozwiązania zbudowane dla Afryki mogą skalować się globalnie.

Koszt AI ukierunkowanego na języki rodzime

Zbieranie danych głosowych w ustawieniach o niskich zasobach jest drogie. Nagrania terenowe, transkrypcja, walidacja językowa i synteza głosu jakości studyjnej wymagają trwałego finansowania.

Inwestycja Google jest częścią szerszego przesunięcia branżowego od skrobania dostępnego tekstu do inwestowania w oryginalne dane mowy. Model weryfikacji człowiek-w-pętli Lelapa AI podkreśla koszt dokładności. Zbiór danych FLORES-200 Meta opierał się na profesjonalnych tłumaczach. Inicjatywy głosowe rolnicze Microsoft obejmują tysiące opatrzonych adnotacjami filmów.

Jakość ma znaczenie. Syntetyczne głosy muszą brzmieć naturalnie. Systemy rozpoznawania muszą radzić sobie z przełączaniem kodów. Mowa miejska często miesza angielski, lokalne języki i slang w tym samym zdaniu.

Afrykańskie AI nie może być zbudowane wyłącznie poprzez automatyzację; wymagałoby wiedzy kulturowej i językowej.

Dla Diacka sukces nie jest mierzony wyłącznie integracją produktów.

„Chcę zobaczyć startupy wykorzystujące zbiór danych do świadczenia usług w lokalnych językach" – powiedział. „Chcę zobaczyć badaczy piszących artykuły oparte na naszych językach, nie tylko angielskim".

Ostatecznie jednak drzwi, które Google buduje, muszą prowadzić gdzieś namacalnie. Obejmuje to produkty Google; Search, Gemini, asystentów głosowych, którzy wchodzą w interakcję płynnie w joruba, wolof, hausa lub luganda. Ale obejmuje także niezależne startupy budujące narzędzia fintech, chatboty zdrowotne lub systemy doradcze rolnicze.

Jeśli coś, przyszłość AI w Afryce zależy od tego, czy głos stanie się siłą wyrównującą, czy kolejną utraconą szansą. Jeśli mowa pozostanie nierozpoznana przez globalne systemy, miliardy słów wypowiadanych codziennie na kontynencie pozostaną cyfrowo niewidoczne.

Okazja rynkowa
Logo native coin
Cena native coin(NATIVE)
$0.00001712
$0.00001712$0.00001712
-0.11%
USD
native coin (NATIVE) Wykres Ceny na Żywo
Zastrzeżenie: Artykuły udostępnione na tej stronie pochodzą z platform publicznych i służą wyłącznie celom informacyjnym. Niekoniecznie odzwierciedlają poglądy MEXC. Wszystkie prawa pozostają przy pierwotnych autorach. Jeśli uważasz, że jakakolwiek treść narusza prawa stron trzecich, skontaktuj się z service@support.mexc.com w celu jej usunięcia. MEXC nie gwarantuje dokładności, kompletności ani aktualności treści i nie ponosi odpowiedzialności za jakiekolwiek działania podjęte na podstawie dostarczonych informacji. Treść nie stanowi porady finansowej, prawnej ani innej profesjonalnej porady, ani nie powinna być traktowana jako rekomendacja lub poparcie ze strony MEXC.