Quando Abdoulaye Diack, program manager di Google Research, una divisione di Google dedicata al progresso dello stato dell'arte in informatica e all'applicazione di tali innovazioni a problemi del mondo reale, parla delle origini di WAXAL, un dataset vocale open-source di Google Research Africa, inizia con una singola parola.
"WAXAL significa 'parlare'," ha detto a TechCabal, notando le sue radici nel Wolof, una lingua ampiamente parlata nella regione della Senegambia.
Il nome, scelto nel 2020 da un responsabile della ricerca senegalese di Google, Moustaph Cisse, riflette una verità più ampia sulla traiettoria dell'IA dell'Africa: in un continente con più di 2.000 lingue, la maggior parte delle quali parlate piuttosto che scritte, la voce non è opzionale; è il punto di accesso.
Per anni, la tecnologia digitale si è concentrata su alfabetizzazione, tastiere e testo. Ma in Africa, la lingua vive nella conversazione, attraverso mercati, fattorie, cliniche e case. Un'IA che non può analizzare accenti, intonazione o code-switching non può servire in modo significativo la maggior parte degli africani. WAXAL mira a cambiare questo. Invece di concentrarsi esclusivamente sulla traduzione testuale, il progetto sta creando l'infrastruttura fondamentale per l'IA speech-to-speech in lingue africane a basse risorse, incentrata sulla costruzione di un vasto hub di alta qualità di "materia prima" linguistica.
"Avere un'IA che possa parlarci nella nostra lingua e comprenderci, sia per il nostro accento che per l'intonazione, è in realtà molto importante," ha detto Diack.
La sfida inizia con un netto squilibrio. Più del 50% di tutti i siti web è in inglese e in una manciata di lingue occidentali. Le oltre 2.000 lingue africane sono appena registrate nei dataset digitali globali. La maggior parte è sottorappresentata online. Molte non sono scritte in modo estensivo. Alcune non sono affatto standardizzate.
Se i modelli di IA sono addestrati su testo digitale, e il testo digitale esiste a malapena per le lingue africane, allora il continente inizia la corsa all'IA con uno svantaggio strutturale.
"Questo non è un problema nuovo," ha detto Diack. "Le persone nella ricerca sono consapevoli di questo enorme divario nella mancanza di dati."
Senza dati, i modelli non possono essere addestrati. Senza modelli addestrati, i sistemi di IA fraintendono, traducono male o ignorano intere popolazioni. Diack racconta una frustrazione comune: parlare con un accento africano francofono mentre un sistema di IA per prendere appunti fatica a comprenderlo. La tecnologia esiste, ma non è sintonizzata sul contesto locale.
Questo divario è ciò che WAXAL vuole colmare.
Lanciato ufficialmente a febbraio 2026 dopo tre anni di sviluppo, WAXAL ha prodotto uno dei più grandi dataset vocali per lingue africane fino ad oggi: oltre 11.000 ore di parlato registrato da quasi 2 milioni di registrazioni individuali, coprendo 21 lingue dell'Africa subsahariana, tra cui Hausa, Yoruba, Luganda e Acholi.
Oltre alla raccolta generale di parlato, Google ha dichiarato di aver investito oltre 20 ore di registrazioni in studio di alta qualità per sviluppare voci sintetiche dal suono naturale per assistenti vocali. Queste registrazioni "studio premium" sono progettate per far sembrare le risposte dell'IA meno robotiche e più autentiche culturalmente.
Google ha strutturato l'iniziativa come un modello di partnership. Università come la Makerere University in Uganda e l'Università del Ghana hanno guidato gran parte della raccolta dati. I partner locali mantengono la proprietà dei dataset, che sono stati rilasciati come open source con licenze che consentono l'uso commerciale.
"Abbiamo principalmente fornito orientamento e finanziamento," ha spiegato Diack. "Tutto questo dataset non appartiene a noi. Appartiene ai partner con cui lavoriamo."
L'ambizione non è semplicemente alimentare i prodotti di Google, ma creare un ecosistema.
Entro pochi giorni dal rilascio, il dataset ha registrato oltre 4.000 download, un primo segnale di adozione da parte di ricercatori e sviluppatori, secondo Diack
Google offre già strumenti di traduzione in molte lingue. Quindi perché ricominciare da zero?
Perché la traduzione non è parlato.
La traduzione automatica tradizionale si basa su "testo parallelo," frasi scritte in una lingua che sono allineate con i loro equivalenti in un'altra. Per le lingue a basse risorse, tali corpora paralleli esistono a malapena. E anche quando la traduzione funziona, non risolve il problema più profondo: molti africani interagiscono con la tecnologia principalmente attraverso il parlato.
"Molte persone in realtà non sanno leggere e scrivere nel continente," ha detto Diack. "La voce è fondamentalmente il gateway alla tecnologia."
Immagina un contadino a Kaduna che chiede previsioni meteorologiche in Hausa. O una madre in un villaggio rurale ghanese che cerca consigli nutrizionali nella sua lingua locale. I sistemi basati su testo presuppongono alfabetizzazione e ortografia standardizzata. I sistemi vocali devono navigare dialetti, slang, code-switching e modelli di parlato atipici.
In Ghana, un progetto di riconoscimento vocale, l'iniziativa UGSpeechData, ha prodotto oltre 5.000 ore di dati audio. Quell'iniziativa ha successivamente consentito lo sviluppo di un chatbot per la salute materna operante in lingue locali. Si è anche estesa al lavoro sul parlato atipico, aiutando comunità di individui sordi e sopravvissuti a ictus i cui modelli di parlato spesso confondono i sistemi di IA mainstream.
"I sistemi di IA non sono adattati a questo," ha detto Diack. "Se hai diversi tipi di parlato, è probabile che il sistema non ti capisca."
Google non è sola in questa corsa.
Masakhane, un collettivo di ricerca open-source di base, ha costruito sistemi di traduzione in oltre 45 lingue africane e sviluppato Lulu, un benchmark per valutare i modelli linguistici africani. La sua filosofia è community-first e completamente aperta.
Lelapa AI del Sudafrica, fondata da ex ricercatori di DeepMind, si concentra su prodotti commerciali di Natural Language Processing (NLP) per aziende africane. Il suo modello di punta, Vulavula, cattura dialetti e modelli di code-switching urbano in isiZulu, Sesotho e Afrikaans. Lelapa enfatizza dataset di "ground truth" e analisi approfondita degli errori umani, un approccio costoso ma ad alta fedeltà.
Lesan AI in Etiopia ha costruito alcuni dei sistemi di traduzione più accurati per amarico, tigrino e oromo utilizzando un modello human-in-the-loop per garantire sfumature culturali.
Il progetto No Language Left Behind (NLLB-200) di Meta adotta un approccio su scala massiva, traducendo in 200 lingue, incluse 55 africane, utilizzando zero-shot learning. Microsoft, nel frattempo, integra le lingue africane in Microsoft Translator e sta investendo in dataset agricoli multi-modali attraverso progetti come Gecko.
L'iniziativa African Next Voices finanziata dalla Gates Foundation lanciata alla fine del 2025, producendo 9.000 ore di dati vocali in 18 lingue.
L'ecosistema è diversificato: collettivi open-source, startup commerciali, giganti della Big Tech, finanziatori filantropici. Ciascuno affronta il problema in modo diverso: scala versus profondità, testo versus voce, open versus proprietario.
La distinzione di Google risiede nel suo approccio orientato al parlato e all'ecosistema.
Tuttavia, il coinvolgimento dei giganti tecnologici globali solleva inevitabilmente domande sulla sovranità dei dati e sulla dipendenza.
Se Google coordina il rilascio di dataset vocali multilingue, questo crea una dipendenza strutturale dai prodotti Google? Gli sviluppatori locali potrebbero diventare dipendenti da strumenti integrati in Gemini, Search o Android?
Diack riconosce la tensione ma avverte contro il diventare così conflittuali che non si fa nulla riguardo all'opportunità che viene presentata.
"Ciò che è più importante è che non veniamo lasciati indietro," ha detto. "Sicuramente non voglio che i miei dati vengano utilizzati in modo improprio. Ma questo riguarda l'abilitare imprenditori, startup e ricercatori a lavorare su dati che sono davvero importanti."
Traccia parallelismi con le partnership tra università e aziende tecnologiche negli Stati Uniti e in Europa. La collaborazione, sostiene, accelera lo sviluppo delle capacità. Già i ricercatori coinvolti nei primi progetti hanno pubblicato articoli e avanzato in ruoli di ricerca globali.
Il modello di licenza aperto è centrale in quell'argomento. Gli sviluppatori possono costruire prodotti commerciali sui dataset WAXAL senza dipendere dalle API proprietarie di Google. Google ha anche rilasciato modelli di traduzione open-weight come Translate Gemma, che possono essere scaricati e ottimizzati in modo indipendente.
Se quell'equilibrio soddisfi i critici resta da vedere. Ma la scala del divario linguistico suggerisce che l'inazione possa comportare rischi maggiori.
L'IA vocale non esiste in isolamento. Richiede connettività, larghezza di banda e infrastruttura informatica.
"Non puoi davvero addestrare modelli di IA senza l'infrastruttura giusta," ha detto Diack.
Google ha investito in cavi sottomarini, incluso l'approdo del cavo Equiano in Nigeria e altri mercati africani, per rafforzare la resilienza della banda larga. I tagli alle fibre negli ultimi anni hanno esposto la fragilità delle reti regionali. Un'infrastruttura ridondante e ad alta capacità è essenziale non solo per i servizi cloud ma anche per i data center locali, un pilastro chiave della sovranità digitale.
Lo sviluppo dell'IA dipende da tre fondamenti: persone, dati e infrastruttura. La popolazione giovane dell'Africa, che si prevede rappresenterà una grande quota di utenti di IA globali nei prossimi decenni, offre un vantaggio demografico. Ma senza investimenti nella capacità di ricerca e nell'infrastruttura digitale, il potenziale demografico non si tradurrà in leadership tecnologica.
Per evitare la frammentazione, Google è passata da partnership universitarie isolate a modelli di collaborazione più coordinati. Uno di questi sforzi coinvolge la collaborazione con l'hub linguistico di Masakhane e altre reti di volontari per consentire a ricercatori e startup di richiedere finanziamenti e contribuire a dataset condivisi.
"Se stiamo tutti facendo la nostra cosa in tutto il continente, non è efficace," ha detto Diack. "Abbiamo bisogno di uno sforzo concertato."
Finora, WAXAL ha coperto 27 lingue, incluse quattro nigeriane. Alcune delle lingue già coperte includono Acholi, Akan, Dagaare, Dagbani, Dholuo, Ewe, Fante, Fulani (Fula), Hausa, Igbo, Ikposo (Kposo), Kikuyu, Lingala, Luganda, Malagasy, Masaaba, Nyankole, Rukiga, Shona, Soga (Lusoga), Swahili e Yoruba.
L'ambizione di affrontare tutte le oltre 2.000 lingue africane è aspirazionale, forse generazionale.
"Questo è il mio sogno," ha detto Diack.
Ma la prioritizzazione è importante. Indica l'istruzione, l'agricoltura e la salute come domini critici in cui l'IA vocale potrebbe fornire un impatto misurabile allineato con gli obiettivi di sviluppo sostenibile.
Le previsioni meteorologiche integrate in Google Search, migliorate attraverso iniziative di ricerca africane, dimostrano già una ricaduta globale. Progetti di rilevamento delle malattie della manioca come PlantVillage Nuru sviluppati attraverso una partnership tra Penn State University, International Institute of Tropical Agriculture (IITA) e Consultative Group on International Agricultural Research (CGIAR), hanno influenzato l'IA agricola oltre l'Africa. Questi precedenti suggeriscono che le soluzioni costruite per l'Africa possono scalare a livello globale.
Raccogliere dati vocali in contesti a basse risorse è costoso. Registrazioni sul campo, trascrizione, validazione linguistica e sintesi vocale di qualità da studio richiedono finanziamenti sostenuti.
L'investimento di Google fa parte di un più ampio cambiamento del settore dallo scraping di testo disponibile all'investimento in dati vocali originali. Il modello di verifica human-in-the-loop di Lelapa AI sottolinea il costo dell'accuratezza. Il dataset FLORES-200 di Meta si è basato su traduttori professionisti. Le iniziative vocali agricole di Microsoft coinvolgono migliaia di video annotati.
La qualità conta. Le voci sintetiche devono suonare naturali. I sistemi di riconoscimento devono gestire il code-switching. Il parlato urbano spesso mescola inglese, lingue locali e slang nella stessa frase.
L'IA africana non può essere costruita esclusivamente attraverso l'automazione; richiederebbe competenze culturali e linguistiche.
Per Diack, il successo non si misura esclusivamente dall'integrazione del prodotto.
"Voglio vedere startup che sfruttano il dataset per fornire servizi in lingue locali," ha detto. "Voglio vedere ricercatori che scrivono articoli basati sulle nostre lingue, non solo in inglese."
In definitiva, tuttavia, la porta che Google sta costruendo deve portare da qualche parte di tangibile. Ciò include prodotti Google; Search, Gemini, assistenti vocali, che interagiscono fluentemente in Yoruba, Wolof, Hausa o Luganda. Ma include anche startup indipendenti che costruiscono strumenti fintech, chatbot sanitari o sistemi di consulenza agricola.
Se non altro, il futuro dell'IA africana dipende dal fatto che la voce diventi una forza equalizzante o un'altra opportunità mancata. Se il parlato rimane non riconosciuto dai sistemi globali, miliardi di parole pronunciate quotidianamente in tutto il continente rimarranno digitalmente invisibili.


