Lorsque Abdoulaye Diack, chef de programme chez Google Research, une division de Google dédiée à l'avancement de l'état de l'art en informatique et à l'application de ces avancées à des problèmes du monde réel, parle des origines de WAXAL, un ensemble de données vocales open source de Google Research Africa, il commence par un seul mot.
« WAXAL signifie 'parler' », a-t-il déclaré à TechCabal, notant ses racines en wolof, une langue largement parlée dans la région de la Sénégambie.
Le nom, choisi en 2020 par un chef de recherche sénégalais chez Google, Moustaph Cisse, reflète une vérité plus large sur la trajectoire de l'IA en Afrique : sur un continent comptant plus de 2 000 langues, dont la plupart sont parlées plutôt qu'écrites, la voix n'est pas optionnelle ; c'est le point d'entrée.
Pendant des années, la technologie numérique s'est centrée sur l'alphabétisation, les claviers et le texte. Mais en Afrique, la langue vit dans la conversation, à travers les marchés, les fermes, les cliniques et les foyers. Une IA qui ne peut pas analyser les accents, l'intonation ou le changement de code ne peut pas servir de manière significative la plupart des Africains. WAXAL vise à changer cela. Au lieu de se concentrer uniquement sur la traduction de texte, le projet crée l'infrastructure fondamentale pour l'IA de parole à parole dans les langues africaines à faibles ressources, centrée sur la construction d'un vaste hub de haute qualité de « matière première » linguistique.
« Avoir une IA qui peut nous parler dans notre langue et nous comprendre, que ce soit notre accent ou notre intonation, est en fait assez important », a déclaré Diack.
Le défi commence par un déséquilibre flagrant. Plus de 50 % de tous les sites web sont en anglais et dans une poignée de langues occidentales. Les 2 000 langues et plus de l'Afrique sont à peine enregistrées dans les ensembles de données numériques mondiaux. La plupart sont sous-représentées en ligne. Beaucoup ne sont pas écrites de manière extensive. Certaines ne sont pas du tout standardisées.
Si les modèles d'IA sont formés sur du texte numérique, et que le texte numérique existe à peine pour les langues africaines, alors le continent commence la course à l'IA avec un désavantage structurel.
« Ce n'est pas un nouveau problème », a déclaré Diack. « Les personnes dans la recherche sont conscientes de cet énorme écart dans le manque de données. »
Sans données, les modèles ne peuvent pas être formés. Sans modèles formés, les systèmes d'IA entendent mal, traduisent mal ou ignorent des populations entières. Diack raconte une frustration courante : parler avec un accent africain francophone pendant qu'un système de prise de notes piloté par l'IA peine à le comprendre. La technologie existe, mais elle n'est pas adaptée au contexte local.
C'est cet écart que WAXAL veut combler.
Lancé officiellement en février 2026 après trois années de développement, WAXAL a produit l'un des plus grands ensembles de données vocales pour les langues africaines à ce jour : plus de 11 000 heures de parole enregistrée provenant de près de 2 millions d'enregistrements individuels, couvrant 21 langues d'Afrique subsaharienne, dont le haoussa, le yoruba, le luganda et l'acholi.
Au-delà de la collecte vocale générale, Google a déclaré avoir investi plus de 20 heures d'enregistrements studio de haute qualité pour développer des voix synthétiques au son naturel pour les assistants vocaux. Ces enregistrements « studio premium » sont conçus pour rendre les réponses de l'IA moins robotiques et plus authentiques culturellement.
Google a structuré l'initiative comme un modèle de partenariat. Des universités telles que l'Université de Makerere en Ouganda et l'Université du Ghana ont dirigé une grande partie de la collecte de données. Les partenaires locaux conservent la propriété des ensembles de données, qui ont été publiés en open source sous des licences permettant une utilisation commerciale.
« Nous avons principalement fourni des conseils et du financement », a expliqué Diack. « Tout cet ensemble de données ne nous appartient pas. Il appartient aux partenaires avec lesquels nous travaillons. »
L'ambition n'est pas simplement d'alimenter les propres produits de Google, mais de semer un écosystème.
Dans les jours suivant la publication, l'ensemble de données a enregistré plus de 4 000 téléchargements, un signe précoce d'adoption par les chercheurs et les développeurs, selon Diack
Google propose déjà des outils de traduction dans de nombreuses langues. Alors pourquoi repartir de zéro ?
Parce que la traduction n'est pas la parole.
La traduction automatique traditionnelle repose sur du « texte parallèle », des phrases écrites dans une langue qui sont alignées avec leurs équivalents dans une autre. Pour les langues à faibles ressources, de tels corpus parallèles existent à peine. Et même lorsque la traduction fonctionne, elle ne résout pas le problème plus profond : de nombreux Africains interagissent avec la technologie principalement par la parole.
« Beaucoup de gens ne savent en fait pas lire et écrire sur le continent », a déclaré Diack. « La voix est essentiellement la porte d'entrée vers la technologie. »
Imaginez un agriculteur à Kaduna demandant des prévisions météorologiques en haoussa. Ou une mère dans un village rural ghanéen cherchant des conseils nutritionnels dans sa langue locale. Les systèmes basés sur le texte supposent l'alphabétisation et l'orthographe standardisée. Les systèmes vocaux doivent naviguer entre les dialectes, l'argot, le changement de code et les modèles de parole atypiques.
Au Ghana, un projet de reconnaissance vocale, l'initiative UGSpeechData, a produit plus de 5 000 heures de données audio. Cette initiative a ensuite permis le développement d'un chatbot de santé maternelle fonctionnant dans les langues locales. Elle s'est également étendue au travail sur la parole atypique, aidant les communautés de personnes sourdes et de survivants d'AVC dont les modèles de parole confondent souvent les systèmes d'IA grand public.
« Les systèmes d'IA ne sont pas adaptés à cela », a déclaré Diack. « Si vous avez différents types de parole, il est probable que le système ne vous comprendra pas. »
Google n'est pas seul dans cette course.
Masakhane, un collectif de recherche open source de base, a construit des systèmes de traduction pour plus de 45 langues africaines et développé Lulu, un référentiel pour évaluer les modèles de langues africaines. Sa philosophie est axée sur la communauté et entièrement ouverte.
Lelapa AI d'Afrique du Sud, fondée par d'anciens chercheurs de DeepMind, se concentre sur des produits commerciaux de traitement du langage naturel (NLP) pour les entreprises africaines. Son modèle phare, Vulavula, capture les dialectes et les modèles de changement de code urbain en isiZulu, sesotho et afrikaans. Lelapa met l'accent sur les ensembles de données « vérité terrain » et une analyse approfondie des erreurs humaines, une approche coûteuse mais de haute fidélité.
Lesan AI en Éthiopie a construit certains des systèmes de traduction les plus précis pour l'amharique, le tigrinya et l'oromo en utilisant un modèle humain dans la boucle pour assurer la nuance culturelle.
Le projet No Language Left Behind (NLLB-200) de Meta adopte une approche à grande échelle, traduisant à travers 200 langues, dont 55 africaines, en utilisant l'apprentissage zero-shot. Microsoft, quant à elle, intègre les langues africaines dans Microsoft Translator et investit dans des ensembles de données agricoles multimodaux à travers des projets comme Gecko.
L'initiative African Next Voices financée par la Fondation Gates lancée fin 2025, produisant 9 000 heures de données vocales dans 18 langues.
L'écosystème est diversifié : collectifs open source, startups commerciales, géants de la Big Tech, bailleurs philanthropiques. Chacun aborde le problème différemment : échelle versus profondeur, texte versus voix, ouvert versus propriétaire.
La distinction de Google réside dans son approche axée sur la parole et orientée vers l'écosystème.
Pourtant, l'implication des géants technologiques mondiaux soulève inévitablement des questions sur la souveraineté des données et la dépendance.
Si Google coordonne la publication d'ensembles de données vocales multilingues, cela crée-t-il une dépendance structurelle aux produits Google ? Les développeurs locaux pourraient-ils devenir dépendants des outils intégrés dans Gemini, Search ou Android ?
Diack reconnaît la tension mais met en garde contre le fait de devenir tellement conflictuels que rien n'est fait concernant l'opportunité qui se présente.
« Ce qui est le plus important, c'est que nous ne soyons pas laissés pour compte », a-t-il déclaré. « Je ne veux définitivement pas que mes données soient mal utilisées. Mais il s'agit de permettre aux entrepreneurs, aux startups et aux chercheurs de travailler sur des données qui sont vraiment importantes. »
Il établit des parallèles avec les partenariats entre les universités et les entreprises technologiques aux États-Unis et en Europe. La collaboration, soutient-il, accélère le renforcement des capacités. Déjà, les chercheurs impliqués dans les premiers projets ont publié des articles et progressé vers des rôles de recherche mondiaux.
Le modèle de licence ouverte est au cœur de cet argument. Les développeurs peuvent construire des produits commerciaux sur les ensembles de données WAXAL sans dépendre des API propriétaires de Google. Google a également publié des modèles de traduction à poids ouvert comme Translate Gemma, qui peuvent être téléchargés et ajustés de manière indépendante.
Reste à savoir si cet équilibre satisfera les critiques. Mais l'ampleur de l'écart linguistique suggère que l'inaction pourrait comporter des risques plus importants.
L'IA vocale n'existe pas de manière isolée. Elle nécessite de la connectivité, de la bande passante et une infrastructure informatique.
« Vous ne pouvez pas vraiment former des modèles d'IA sans la bonne infrastructure », a déclaré Diack.
Google a investi dans des câbles sous-marins, notamment en faisant atterrir le câble Equiano au Nigeria et dans d'autres marchés africains, pour renforcer la résilience du haut débit. Les coupures de fibre ces dernières années ont exposé la fragilité des réseaux régionaux. Une infrastructure redondante et à haute capacité est essentielle non seulement pour les services cloud, mais aussi pour les centres de données locaux, un pilier clé de la souveraineté numérique.
Le développement de l'IA dépend de trois fondations : les personnes, les données et l'infrastructure. La population jeune de l'Afrique, prévue pour représenter une part importante des utilisateurs mondiaux d'IA dans les décennies à venir, offre un avantage démographique. Mais sans investissement dans la capacité de recherche et l'infrastructure numérique, le potentiel démographique ne se traduira pas en leadership technologique.
Pour éviter la fragmentation, Google est passé de partenariats universitaires isolés à des modèles de collaboration plus coordonnés. Un tel effort implique de travailler avec le hub linguistique de Masakhane et d'autres réseaux de bénévoles pour permettre aux chercheurs et aux startups de demander du financement et de contribuer à des ensembles de données partagés.
« Si nous faisons tous notre propre chose à travers le continent, ce n'est pas efficace », a déclaré Diack. « Nous avons besoin d'un effort concerté. »
Jusqu'à présent, WAXAL a couvert 27 langues, dont quatre nigérianes. Certaines des langues déjà couvertes incluent l'acholi, l'akan, le dagaare, le dagbani, le dholuo, l'ewe, le fante, le peul (fula), le haoussa, l'igbo, l'ikposo (kposo), le kikuyu, le lingala, le luganda, le malgache, le masaaba, le nyankole, le rukiga, le shona, le soga (lusoga), le swahili et le yoruba.
L'ambition de traiter toutes les 2 000 langues africaines et plus est aspirationnelle, peut-être générationnelle.
« C'est mon rêve », a déclaré Diack.
Mais la priorisation compte. Il pointe l'éducation, l'agriculture et la santé comme des domaines critiques où l'IA vocale pourrait avoir un impact mesurable aligné sur les objectifs de développement durable.
Les prévisions météorologiques intégrées dans Google Search, améliorées grâce aux initiatives de recherche africaines, démontrent déjà un débordement mondial. Les projets de détection de maladies du manioc comme le PlantVillage Nuru développé grâce à un partenariat entre la Penn State University, l'Institut international d'agriculture tropicale (IITA) et le Groupe consultatif pour la recherche agricole internationale (CGIAR), ont influencé l'IA agricole au-delà de l'Afrique. Ces précédents suggèrent que les solutions construites pour l'Afrique peuvent évoluer à l'échelle mondiale.
La collecte de données vocales dans des environnements à faibles ressources est coûteuse. Les enregistrements sur le terrain, la transcription, la validation linguistique et la synthèse vocale de qualité studio nécessitent un financement soutenu.
L'investissement de Google fait partie d'un changement industriel plus large, passant du grattage de texte disponible à l'investissement dans des données vocales originales. Le modèle de vérification humain dans la boucle de Lelapa AI souligne le coût de la précision. L'ensemble de données FLORES-200 de Meta s'est appuyé sur des traducteurs professionnels. Les initiatives vocales agricoles de Microsoft impliquent des milliers de vidéos annotées.
La qualité compte. Les voix synthétiques doivent sonner naturelles. Les systèmes de reconnaissance doivent gérer le changement de code. La parole urbaine mélange souvent l'anglais, les langues locales et l'argot dans la même phrase.
L'IA africaine ne peut pas être construite uniquement par l'automatisation ; elle nécessiterait une expertise culturelle et linguistique.
Pour Diack, le succès ne se mesure pas uniquement par l'intégration de produits.
« Je veux voir des startups exploitant l'ensemble de données pour fournir des services dans les langues locales », a-t-il déclaré. « Je veux voir des chercheurs écrire des articles basés sur nos langues, pas seulement en anglais. »
En fin de compte, cependant, la porte que Google construit doit mener quelque part de tangible. Cela inclut les produits Google ; Search, Gemini, assistants vocaux, qui interagissent couramment en yoruba, wolof, haoussa ou luganda. Mais cela inclut également des startups indépendantes construisant des outils fintech, des chatbots de santé ou des systèmes de conseil agricole.
Si quoi que ce soit, l'avenir de l'IA en Afrique dépend de savoir si la voix devient une force égalisatrice ou une autre opportunité manquée. Si la parole reste non reconnue par les systèmes mondiaux, des milliards de mots prononcés quotidiennement à travers le continent resteront numériquement invisibles.


