Google está impulsando WAXAL, un conjunto de datos de voz de código abierto de Google Research África, que habla múltiples idiomas nativos africanosGoogle está impulsando WAXAL, un conjunto de datos de voz de código abierto de Google Research África, que habla múltiples idiomas nativos africanos

Cómo Google quiere enseñar a la IA los 2.000 idiomas de África

2026/02/12 21:33
Lectura de 11 min

Cuando Abdoulaye Diack, gerente de programa en Google Research, una división de Google dedicada a avanzar en el estado del arte de las ciencias de la computación y aplicar esos avances a problemas del mundo real, habla sobre los orígenes de WAXAL, un conjunto de datos de voz de código abierto de Google Research África, comienza con una sola palabra. 

"WAXAL significa 'hablar'", le dijo a TechCabal, señalando sus raíces en wolof, un idioma ampliamente hablado en la región de Senegambia. 

El nombre, elegido en 2020 por un líder de investigación senegalés en Google, Moustaph Cisse, refleja una verdad más amplia sobre la trayectoria de la IA en África: en un continente con más de 2,000 idiomas, la mayoría de ellos hablados en lugar de escritos, la voz no es opcional; es el punto de entrada.

Durante años, la tecnología digital se ha centrado en la alfabetización, los teclados y el texto. Pero en África, el idioma vive en la conversación, a través de mercados, granjas, clínicas y hogares. La IA que no puede analizar acentos, entonación o cambio de código no puede servir significativamente a la mayoría de los africanos. WAXAL tiene como objetivo cambiar eso. En lugar de centrarse únicamente en la traducción de texto, el proyecto está creando la infraestructura fundamental para la IA de voz a voz en idiomas africanos de bajos recursos, centrada en construir un vasto centro de alta calidad de "materia prima" lingüística.

"Tener una IA que pueda hablarnos en nuestro idioma y entendernos, ya sea nuestro acento o entonación, es realmente bastante importante", dijo Diack.

La desventaja de datos

El desafío comienza con un marcado desequilibrio. Más del 50% de todos los sitios web están en inglés y un puñado de idiomas occidentales. Los más de 2,000 idiomas de África apenas se registran en los conjuntos de datos digitales globales. La mayoría están subrepresentados en línea. Muchos no están escritos extensamente. Algunos no están estandarizados en absoluto.

Si los modelos de IA se entrenan con texto digital, y el texto digital apenas existe para los idiomas africanos, entonces el continente comienza la carrera de la IA con una desventaja estructural.

"Este no es un problema nuevo", dijo Diack. "Las personas en investigación son conscientes de esta enorme brecha en la falta de datos."

Sin datos, los modelos no pueden ser entrenados. Sin modelos entrenados, los sistemas de IA escuchan mal, traducen incorrectamente o ignoran poblaciones enteras. Diack relata una frustración común: hablar con un acento africano francófono mientras un sistema de toma de notas de IA lucha por entenderlo. La tecnología existe, pero no está ajustada al contexto local.

Esa brecha es lo que WAXAL quiere cerrar.

Construyendo una base de voz

Lanzado oficialmente en febrero de 2026 después de tres años de desarrollo, WAXAL produjo uno de los conjuntos de datos de voz más grandes para idiomas africanos hasta la fecha: más de 11,000 horas de voz grabada de casi 2 millones de grabaciones individuales, cubriendo 21 idiomas del África subsahariana, incluidos hausa, yoruba, luganda y acholi.

Más allá de la recopilación general de voz, Google dijo que ha invertido más de 20 horas de grabaciones de estudio de alta calidad para desarrollar voces sintéticas de sonido natural para asistentes de voz. Estas grabaciones "premium de estudio" están diseñadas para hacer que las respuestas de IA suenen menos robóticas y más auténticas culturalmente.

Google estructuró la iniciativa como un modelo de asociación. Universidades como la Universidad de Makerere en Uganda y la Universidad de Ghana lideraron gran parte de la recopilación de datos. Los socios locales conservan la propiedad de los conjuntos de datos, que se han lanzado como código abierto bajo licencias que permiten el uso comercial.

"Principalmente hemos proporcionado orientación y financiamiento", explicó Diack. "Todo este conjunto de datos no nos pertenece. Pertenece a los socios con los que trabajamos."

La ambición no es simplemente alimentar los propios productos de Google, sino sembrar un ecosistema.

A los pocos días del lanzamiento, el conjunto de datos registró más de 4,000 descargas, una señal temprana de adopción por parte de investigadores y desarrolladores, según Diack

Por qué importa la voz 

Google ya ofrece herramientas de traducción en muchos idiomas. Entonces, ¿por qué empezar desde cero?

Porque la traducción no es voz.

La traducción automática tradicional se basa en "texto paralelo", oraciones escritas en un idioma que están alineadas con sus equivalentes en otro. Para idiomas de bajos recursos, dichos corpus paralelos apenas existen. E incluso cuando la traducción funciona, no resuelve el problema más profundo: muchos africanos interactúan con la tecnología principalmente a través de la voz.

"Mucha gente en realidad no sabe leer y escribir en el continente", dijo Diack. "La voz es básicamente la puerta de entrada a la tecnología."

Imagina a un agricultor en Kaduna preguntando sobre pronósticos del tiempo en hausa. O una madre en una aldea rural ghanesa buscando consejos nutricionales en su idioma local. Los sistemas basados en texto asumen alfabetización y ortografía estandarizada. Los sistemas de voz deben navegar dialectos, jerga, cambio de código y patrones de habla atípicos.

En Ghana, un proyecto de reconocimiento de voz, la iniciativa UGSpeechData, produjo más de 5,000 horas de datos de audio. Esa iniciativa luego permitió el desarrollo de un chatbot de salud materna que opera en idiomas locales. También se extendió al trabajo sobre el habla atípica, ayudando a comunidades de personas sordas y sobrevivientes de accidentes cerebrovasculares cuyos patrones de habla a menudo confunden a los sistemas de IA convencionales.

"Los sistemas de IA no están adaptados a eso", dijo Diack. "Si tienes diferentes tipos de habla, es probable que el sistema no te entienda."

Un campo concurrido

Google no está solo en esta carrera.

Masakhane, un colectivo de investigación de código abierto de base, ha construido sistemas de traducción en más de 45 idiomas africanos y desarrolló Lulu, un punto de referencia para evaluar modelos de idiomas africanos. Su filosofía es primero la comunidad y completamente abierta.

Lelapa AI de Sudáfrica, fundada por ex investigadores de DeepMind, se centra en productos comerciales de Procesamiento de Lenguaje Natural (NLP) para empresas africanas. Su modelo insignia, Vulavula, captura dialectos y patrones de cambio de código urbano en isiZulu, sesotho y afrikáans. Lelapa enfatiza conjuntos de datos de "verdad fundamental" y un análisis exhaustivo de errores humanos, un enfoque costoso pero de alta fidelidad.

Lesan AI en Etiopía ha construido algunos de los sistemas de traducción más precisos para amhárico, tigriña y oromo utilizando un modelo de humano en el ciclo para garantizar matices culturales.

El proyecto No Language Left Behind (NLLB-200) de Meta adopta un enfoque a gran escala, traduciendo en 200 idiomas, incluidos 55 africanos, utilizando aprendizaje de zero-shot. Microsoft, mientras tanto, integra idiomas africanos en Microsoft Translator y está invirtiendo en conjuntos de datos agrícolas multimodales a través de proyectos como Gecko.

La iniciativa African Next Voices financiada por la Fundación Gates se lanzó a finales de 2025, produciendo 9,000 horas de datos de voz en 18 idiomas.

El ecosistema es diverso: colectivos de código abierto, startups comerciales, gigantes de Big Tech, financiadores filantrópicos. Cada uno aborda el problema de manera diferente: escala versus profundidad, texto versus voz, abierto versus propietario.

La distinción de Google radica en su enfoque orientado al ecosistema y con un fuerte énfasis en la voz.

Soberanía versus parálisis

Sin embargo, la participación de gigantes tecnológicos globales inevitablemente plantea preguntas sobre la soberanía de datos y la dependencia.

Si Google coordina el lanzamiento de conjuntos de datos de voz multilingües, ¿eso crea una dependencia estructural de los productos de Google? ¿Podrían los desarrolladores locales volverse dependientes de herramientas integradas en Gemini, Search o Android?

Diack reconoce la tensión pero advierte contra volverse tan conflictivo que no se haga nada con la oportunidad que se presenta. 

"Lo más importante es que no nos quedemos atrás", dijo. "Definitivamente no quiero que se haga un mal uso de mis datos. Pero esto se trata de permitir que empresarios, startups e investigadores trabajen con datos que son realmente importantes."

Establece paralelos con asociaciones entre universidades y empresas tecnológicas en Estados Unidos y Europa. La colaboración, argumenta, acelera la construcción de capacidades. Los investigadores involucrados en proyectos tempranos ya han publicado artículos y avanzado a roles de investigación globales.

El modelo de licencia abierta es central para ese argumento. Los desarrolladores pueden construir productos comerciales sobre los conjuntos de datos de WAXAL sin depender de las API propietarias de Google. Google también ha lanzado modelos de traducción de peso abierto como Translate Gemma, que se pueden descargar y ajustar de forma independiente.

Si ese equilibrio satisface a los críticos está por verse. Pero la escala de la brecha lingüística sugiere que la inacción puede conllevar mayores riesgos.

Infraestructura: el requisito silencioso

La IA de voz no existe de forma aislada. Requiere conectividad, ancho de banda e infraestructura informática.

"Realmente no puedes entrenar modelos de IA sin la infraestructura adecuada", dijo Diack.

Google ha invertido en cables submarinos, incluido el desembarco del cable Equiano en Nigeria y otros mercados africanos, para fortalecer la resiliencia de banda ancha. Los cortes de fibra en años recientes expusieron la fragilidad de las redes regionales. La infraestructura redundante de alta capacidad es esencial no solo para los servicios en la nube sino también para los centros de datos locales, un pilar clave de la soberanía digital.

El desarrollo de la IA depende de tres fundamentos: personas, datos e infraestructura. La población joven de África, proyectada para representar una gran parte de los usuarios globales de IA en las próximas décadas, ofrece una ventaja demográfica. Pero sin inversión en capacidad de investigación e infraestructura digital, el potencial demográfico no se traducirá en liderazgo tecnológico.

El desafío de la coordinación

Para evitar la fragmentación, Google ha pasado de asociaciones universitarias aisladas a modelos de colaboración más coordinados. Uno de esos esfuerzos implica trabajar con el centro de idiomas de Masakhane y otras redes de voluntarios para permitir que investigadores y startups soliciten financiamiento y contribuyan a conjuntos de datos compartidos.

"Si todos estamos haciendo lo nuestro en todo el continente, no es efectivo", dijo Diack. "Necesitamos un esfuerzo concertado."

Hasta ahora, WAXAL ha cubierto 27 idiomas, incluidos cuatro nigerianos. Algunos de los idiomas ya cubiertos incluyen acholi, akan, dagaare, dagbani, dholuo, ewe, fante, fulani (fula), hausa, igbo, ikposo (kposo), kikuyu, lingala, luganda, malgache, masaaba, nyankole, rukiga, shona, soga (lusoga), swahili y yoruba. 

La ambición de abordar todos los más de 2,000 idiomas africanos es aspiracional, quizás generacional.

"Ese es mi sueño", dijo Diack.

Pero la priorización importa. Señala la educación, la agricultura y la salud como ámbitos críticos donde la IA de voz podría generar un impacto medible alineado con los objetivos de desarrollo sostenible.

El pronóstico del tiempo integrado en Google Search, mejorado a través de iniciativas de investigación africanas, ya demuestra un impacto global. Los proyectos de detección de enfermedades de la yuca como PlantVillage Nuru, desarrollados a través de una asociación entre Penn State University, International Institute of Tropical Agriculture (IITA) y Consultative Group on International Agricultural Research (CGIAR), han influido en la IA agrícola más allá de África. Estos precedentes sugieren que las soluciones construidas para África pueden escalar globalmente.

El costo de la IA indígena primero

Recopilar datos de voz en entornos de bajos recursos es costoso. Las grabaciones de campo, la transcripción, la validación lingüística y la síntesis de voz de calidad de estudio requieren financiamiento sostenido.

La inversión de Google es parte de un cambio más amplio de la industria desde el raspado de texto disponible hasta la inversión en datos de voz originales. El modelo de verificación de humano en el ciclo de Lelapa AI subraya el costo de la precisión. El conjunto de datos FLORES-200 de Meta se basó en traductores profesionales. Las iniciativas de voz agrícola de Microsoft involucran miles de videos anotados.

La calidad importa. Las voces sintéticas deben sonar naturales. Los sistemas de reconocimiento deben manejar el cambio de código. El habla urbana a menudo mezcla inglés, idiomas locales y jerga en la misma oración.

La IA africana no puede construirse únicamente mediante automatización; requeriría experiencia cultural y lingüística.

Para Diack, el éxito no se mide únicamente por la integración de productos.

"Quiero ver startups aprovechando el conjunto de datos para proporcionar servicios en idiomas locales", dijo. "Quiero ver investigadores escribiendo artículos basados en nuestros idiomas, no solo en inglés."

En última instancia, sin embargo, la puerta que Google está construyendo debe conducir a algún lugar tangible. Eso incluye productos de Google; Search, Gemini, asistentes de voz, que interactúan con fluidez en yoruba, wolof, hausa o luganda. Pero también incluye startups independientes que construyen herramientas fintech, chatbots de salud o sistemas de asesoramiento agrícola.

En todo caso, el futuro de la IA en África depende de si la voz se convierte en una fuerza igualadora u otra oportunidad perdida. Si el habla permanece sin ser reconocida por los sistemas globales, miles de millones de palabras habladas diariamente en todo el continente permanecerán digitalmente invisibles.

Oportunidad de mercado
Logo de native coin
Precio de native coin(NATIVE)
$0.00001712
$0.00001712$0.00001712
-0.11%
USD
Gráfico de precios en vivo de native coin (NATIVE)
Aviso legal: Los artículos republicados en este sitio provienen de plataformas públicas y se ofrecen únicamente con fines informativos. No reflejan necesariamente la opinión de MEXC. Todos los derechos pertenecen a los autores originales. Si consideras que algún contenido infringe derechos de terceros, comunícate a la dirección service@support.mexc.com para solicitar su eliminación. MEXC no garantiza la exactitud, la integridad ni la actualidad del contenido y no se responsabiliza por acciones tomadas en función de la información proporcionada. El contenido no constituye asesoría financiera, legal ni profesional, ni debe interpretarse como recomendación o respaldo por parte de MEXC.