Когда Абдулай Диак, руководитель программы в Google Research, подразделении Google, занимающемся продвижением передовых достижений в области компьютерных наук и применением этих прорывов к решению реальных проблем, говорит о происхождении WAXAL, набора данных открытого источника речи от Google Research Africa, он начинает с одного слова.
«WAXAL означает "говорение"», — сказал он TechCabal, отмечая его корни в волоф, широко распространенном языке в регионе Сенегамбия.
Название, выбранное в 2020 году сенегальским руководителем исследований в Google Мустафом Сиссе, отражает более глубокую истину о траектории развития ИИ в Африке: на континенте с более чем 2 000 языков, большинство из которых используются устно, а не письменно, голос — это не опция; это точка входа.
На протяжении многих лет цифровые технологии были сосредоточены на грамотности, клавиатурах и тексте. Но в Африке язык живет в разговорах, на рынках, фермах, в клиниках и домах. ИИ, который не может распознавать акценты, интонацию или переключение кодов, не может осмысленно обслуживать большинство африканцев. WAXAL стремится это изменить. Вместо того чтобы сосредоточиться исключительно на переводе текста, проект создает базовую инфраструктуру для голосового ИИ на африканских языках с низкими ресурсами, сосредоточенную на создании обширного высококачественного хранилища лингвистического «сырья».
«Наличие ИИ, который может говорить с нами на нашем языке и понимать нас, будь то наш акцент или интонация, на самом деле очень важно», — сказал Диак.
Проблема начинается с резкого дисбаланса. Более 50% всех веб-сайтов написаны на английском языке и нескольких западных языках. Более 2 000 африканских языков едва регистрируются в глобальных цифровых наборах данных. Большинство из них недостаточно представлены в интернете. Многие не имеют обширных письменных форм. Некоторые вообще не стандартизированы.
Если модели ИИ обучаются на цифровом тексте, а цифрового текста для африканских языков практически не существует, то континент начинает гонку ИИ со структурным недостатком.
«Это не новая проблема», — сказал Диак. «Люди в исследованиях осознают этот огромный разрыв в отсутствии данных».
Без данных модели не могут быть обучены. Без обученных моделей системы ИИ неправильно слышат, неправильно переводят или игнорируют целые группы населения. Диак рассказывает об общем разочаровании: говорить с франкоязычным африканским акцентом, в то время как система ИИ для создания заметок с трудом понимает его. Технология существует, но она не настроена на локальный контекст.
Этот разрыв WAXAL и хочет устранить.
Официально запущенный в феврале 2026 года после трех лет разработки, WAXAL создал один из крупнейших наборов речевых данных для африканских языков на сегодняшний день: более 11 000 часов записанной речи из почти 2 миллионов индивидуальных записей, охватывающих 21 язык Африки к югу от Сахары, включая хауса, йоруба, луганда и ачоли.
Помимо общего сбора речи, Google заявил, что инвестировал более 20 часов высококачественных студийных записей для разработки естественно звучащих синтетических голосов для голосовых помощников. Эти «студийные премиум» записи предназначены для того, чтобы ответы ИИ звучали менее роботизированно и более культурно аутентично.
Google структурировал инициативу как партнерскую модель. Университеты, такие как Университет Макерере в Уганде и Университет Ганы, возглавили большую часть сбора данных. Локальные партнеры сохраняют право собственности на наборы данных, которые были выпущены как открытый источник под лицензиями, разрешающими коммерческое использование.
«Мы в основном предоставили руководство и финансирование», — пояснил Диак. «Все эти наборы данных не принадлежат нам. Они принадлежат партнерам, с которыми мы работаем».
Амбиция состоит не просто в том, чтобы питать собственные продукты Google, но в том, чтобы посеять экосистему.
В течение нескольких дней после выпуска набор данных зафиксировал более 4 000 загрузок, что является ранним признаком восприятия исследователями и разработчиками, по словам Диака
Google уже предлагает инструменты перевода на многих языках. Так зачем начинать с нуля?
Потому что перевод — это не речь.
Традиционный машинный перевод опирается на «параллельный текст», предложения, написанные на одном языке, которые согласованы с их эквивалентами на другом. Для языков с низкими ресурсами такие параллельные корпуса почти не существуют. И даже когда перевод работает, он не решает более глубокую проблему: многие африканцы взаимодействуют с технологиями в первую очередь через речь.
«Многие люди на континенте на самом деле не умеют читать и писать», — сказал Диак. «Голос — это в основном шлюз к технологиям».
Представьте себе фермера в Кадуне, спрашивающего о прогнозах погоды на хауса. Или мать в сельской деревне Ганы, ищущую консультацию по питанию на своем местном языке. Текстовые системы предполагают грамотность и стандартизированную орфографию. Голосовые системы должны ориентироваться в диалектах, сленге, переключении кодов и нетипичных речевых моделях.
В Гане проект распознавания речи, инициатива UGSpeechData, создал более 5 000 часов аудиоданных. Эта инициатива позже позволила разработать чат-бот для материнского здоровья, работающий на местных языках. Он также распространился на работу с нетипичной речью, помогая сообществам глухих людей и выживших после инсульта, чьи речевые модели часто сбивают с толку основные системы ИИ.
«Системы ИИ не адаптированы к этому», — сказал Диак. «Если у вас разные типы речи, вероятно, система вас не поймет».
Google не одинок в этой гонке.
Masakhane, низовой исследовательский коллектив с открытым исходным кодом, создал системы перевода для более чем 45 африканских языков и разработал Lulu, эталон для оценки моделей африканских языков. Его философия — сначала сообщество и полная открытость.
Lelapa AI из Южной Африки, основанная бывшими исследователями DeepMind, сосредоточена на коммерческих продуктах обработки естественного языка (NLP) для африканских компаний. Ее флагманская модель Vulavula захватывает диалекты и городские модели переключения кодов на исизулу, сесото и африкаанс. Lelapa подчеркивает наборы данных «достоверной истины» и тщательный анализ человеческих ошибок, дорогостоящий, но высокоточный подход.
Lesan AI в Эфиопии создал одни из самых точных систем перевода для амхарского, тигринья и оромо, используя модель «человек в цикле» для обеспечения культурных нюансов.
Проект Meta No Language Left Behind (NLLB-200) использует подход массового масштаба, переводя на 200 языков, включая 55 африканских, используя обучение с нулевым выстрелом. Microsoft, между тем, интегрирует африканские языки в Microsoft Translator и инвестирует в мультимодальные сельскохозяйственные наборы данных через такие проекты, как Gecko.
Инициатива African Next Voices, финансируемая Фондом Гейтса, запущенная в конце 2025 года, произвела 9 000 часов речевых данных на 18 языках.
Экосистема разнообразна: коллективы с открытым исходным кодом, коммерческие стартапы, гиганты больших технологий, филантропические спонсоры. Каждый подходит к проблеме по-разному: масштаб против глубины, текст против голоса, открытый против проприетарного.
Отличие Google заключается в его речевом, ориентированном на экосистему подходе.
Тем не менее, участие глобальных технологических гигантов неизбежно вызывает вопросы о суверенитете данных и зависимости.
Если Google координирует выпуск многоязычных речевых наборов данных, создает ли это структурную зависимость от продуктов Google? Могут ли местные разработчики стать зависимыми от инструментов, встроенных в Gemini, Search или Android?
Диак признает напряженность, но предупреждает от того, чтобы стать настолько конфликтным, что ничего не делается по поводу представленной возможности.
«Самое важное — чтобы мы не отстали», — сказал он. «Я определенно не хочу, чтобы мои данные использовались неправильно. Но это о том, чтобы дать возможность предпринимателям, стартапам и исследователям работать с действительно важными данными».
Он проводит параллели с партнерствами между университетами и технологическими компаниями в Соединенных Штатах и Европе. Сотрудничество, утверждает он, ускоряет наращивание потенциала. Уже исследователи, участвовавшие в ранних проектах, опубликовали статьи и продвинулись на глобальные исследовательские роли.
Модель открытого лицензирования является центральной для этого аргумента. Разработчики могут создавать коммерческие продукты поверх наборов данных WAXAL, не завися от проприетарных API Google. Google также выпустил модели перевода с открытым весом, такие как Translate Gemma, которые можно загрузить и тонко настроить независимо.
Удовлетворит ли этот баланс критиков, еще предстоит увидеть. Но масштаб языкового разрыва предполагает, что бездействие может нести большие риски.
Голосовой ИИ не существует изолированно. Он требует подключения, пропускной способности и вычислительной инфраструктуры.
«Вы действительно не можете обучать модели ИИ без правильной инфраструктуры», — сказал Диак.
Google инвестировал в подводные кабели, включая прокладку кабеля Equiano в Нигерии и других африканских рынках, чтобы укрепить устойчивость широкополосной связи. Разрывы оптоволокна в последние годы показали хрупкость региональных сетей. Избыточная высокопроизводительная инфраструктура необходима не только для облачных сервисов, но и для локальных центров обработки данных, ключевого столпа цифрового суверенитета.
Развитие ИИ зависит от трех основ: людей, данных и инфраструктуры. Молодое население Африки, прогнозируемое на большую долю глобальных пользователей ИИ в ближайшие десятилетия, предлагает демографическое преимущество. Но без инвестиций в исследовательский потенциал и цифровую инфраструктуру демографический потенциал не превратится в технологическое лидерство.
Чтобы избежать фрагментации, Google перешел от изолированных университетских партнерств к более скоординированным моделям сотрудничества. Одна из таких попыток включает работу с языковым хабом Masakhane и другими волонтерскими сетями, чтобы дать возможность исследователям и стартапам подавать заявки на финансирование и вносить вклад в общие наборы данных.
«Если мы все делаем свое дело по всему континенту, это неэффективно», — сказал Диак. «Нам нужны согласованные усилия».
Пока WAXAL охватил 27 языков, включая четыре нигерийских. Некоторые из уже охваченных языков включают ачоли, акан, дагааре, дагбани, дхолуо, эве, фанте, фулани (фула), хауса, игбо, икпосо (кпосо), кикуйю, лингала, луганда, малагасийский, масааба, ньянколе, рукига, шона, сога (лусога), суахили и йоруба.
Амбиция охватить все более 2 000 африканских языков амбициозна, возможно, поколенческая.
«Это моя мечта», — сказал Диак.
Но приоритизация имеет значение. Он указывает на образование, сельское хозяйство и здоровье как критически важные области, где голосовой ИИ мог бы обеспечить измеримое воздействие, согласованное с целями устойчивого развития.
Прогнозирование погоды, интегрированное в Google Search, улучшенное благодаря африканским исследовательским инициативам, уже демонстрирует глобальное распространение. Проекты обнаружения болезней маниоки, такие как PlantVillage Nuru, разработанные через партнерство между Университетом штата Пенсильвания, Международным институтом тропического сельского хозяйства (IITA) и Консультативной группой по международным сельскохозяйственным исследованиям (CGIAR), повлияли на сельскохозяйственный ИИ за пределами Африки. Эти прецеденты предполагают, что решения, созданные для Африки, могут масштабироваться глобально.
Сбор голосовых данных в условиях с низкими ресурсами дорог. Полевые записи, транскрипция, лингвистическая проверка и студийное качество синтеза голоса требуют устойчивого финансирования.
Инвестиции Google являются частью более широкого отраслевого сдвига от сбора доступного текста к инвестированию в оригинальные речевые данные. Модель проверки «человек в цикле» Lelapa AI подчеркивает стоимость точности. Набор данных FLORES-200 Meta основывался на профессиональных переводчиках. Сельскохозяйственные голосовые инициативы Microsoft включают тысячи аннотированных видео.
Качество имеет значение. Синтетические голоса должны звучать естественно. Системы распознавания должны обрабатывать переключение кодов. Городская речь часто смешивает английский, местные языки и сленг в одном предложении.
Африканский ИИ не может быть построен только через автоматизацию; он потребует культурной и лингвистической экспертизы.
Для Диака успех измеряется не только интеграцией продукта.
«Я хочу видеть стартапы, использующие набор данных для предоставления услуг на местных языках», — сказал он. «Я хочу видеть исследователей, пишущих статьи на основе наших языков, а не только на английском».
В конечном счете, однако, дверь, которую строит Google, должна вести куда-то конкретно. Это включает продукты Google; Search, Gemini, голосовые помощники, которые свободно взаимодействуют на йоруба, волоф, хауса или луганда. Но это также включает независимые стартапы, создающие финтех-инструменты, чат-боты для здоровья или системы консультирования по сельскому хозяйству.
Если что, будущее ИИ Африки зависит от того, станет ли голос уравнивающей силой или еще одной упущенной возможностью. Если речь останется непризнанной глобальными системами, миллиарды слов, произносимых ежедневно по всему континенту, останутся цифрово невидимыми.


