زمانی که عبدالله دیاک، مدیر برنامه در Google Research، بخشی از گوگل که به پیشبرد پیشرفتهترین دستاوردها در علوم کامپیوتر و به کارگیری آن دستاوردها برای حل مشکلات دنیای واقعی اختصاص دارد، درباره منشأ WAXAL، یک مجموعه داده گفتار متنباز از Google Research Africa صحبت میکند، با یک کلمه شروع میکند.
"WAXAL به معنای 'صحبت کردن' است،" او به TechCabal گفت و به ریشههای آن در ولوف، یک زبان پرکاربرد در منطقه سنگامبیا اشاره کرد.
این نام که در سال ۲۰۲۰/۱۳۹۹ توسط یک رهبر تحقیقاتی سنگالی در گوگل، موستاف سیس، انتخاب شد، حقیقتی بزرگتر درباره مسیر هوش مصنوعی آفریقا را منعکس میکند: در قارهای با بیش از ۲٬۰۰۰ زبان، که اکثر آنها گفتاری هستند نه نوشتاری، صدا اختیاری نیست؛ بلکه نقطه ورود است.
سالها، فناوری دیجیتال بر سواد، صفحهکلید و متن متمرکز بوده است. اما در آفریقا، زبان در مکالمه، در بازارها، مزارع، کلینیکها و خانهها زندگی میکند. هوش مصنوعی که نمیتواند لهجهها، لحن یا تغییر کد را تجزیه و تحلیل کند، نمیتواند به طور معنادار به اکثر آفریقاییها خدمت کند. WAXAL قصد دارد این را تغییر دهد. به جای تمرکز صرف بر ترجمه متن، این پروژه زیرساخت بنیادی برای هوش مصنوعی گفتار به گفتار در زبانهای آفریقایی کممنبع را ایجاد میکند، با تمرکز بر ساخت یک مرکز وسیع و با کیفیت بالا از "مواد خام" زبانی.
"داشتن هوش مصنوعی که بتواند به زبان ما با ما صحبت کند و ما را درک کند، چه لهجهمان باشد چه لحنمان، واقعاً بسیار مهم است،" دیاک گفت.
چالش با یک عدم تعادل آشکار شروع میشود. بیش از ۵۰٪ از تمام وبسایتها به انگلیسی و تعداد اندکی از زبانهای غربی هستند. ۲٬۰۰۰ زبان آفریقا به سختی در مجموعه دادههای دیجیتال جهانی ثبت میشوند. اکثر آنها در فضای آنلاین کمنمایندگی شدهاند. بسیاری به طور گسترده نوشته نمیشوند. برخی اصلاً استاندارد نشدهاند.
اگر مدلهای هوش مصنوعی بر روی متن دیجیتال آموزش داده شوند، و متن دیجیتال برای زبانهای آفریقایی تقریباً وجود نداشته باشد، آنگاه این قاره مسابقه هوش مصنوعی را با یک نقطه ضعف ساختاری شروع میکند.
"این مشکل جدیدی نیست،" دیاک گفت. "افراد در زمینه تحقیق از این شکاف عظیم در فقدان داده آگاه هستند."
بدون داده، مدلها نمیتوانند آموزش ببینند. بدون مدلهای آموزشدیده، سیستمهای هوش مصنوعی اشتباه میشنوند، اشتباه ترجمه میکنند یا جمعیتهای کامل را نادیده میگیرند. دیاک یک ناامیدی رایج را بازگو میکند: صحبت کردن با لهجه آفریقایی فرانسویزبان در حالی که یک سیستم یادداشتبرداری هوش مصنوعی برای درک او تلاش میکند. فناوری وجود دارد، اما برای زمینه محلی تنظیم نشده است.
آن شکاف چیزی است که WAXAL میخواهد ببندد.
WAXAL که رسماً در فوریه ۲۰۲۶/بهمن ۱۴۰۴ پس از سه سال توسعه راهاندازی شد، یکی از بزرگترین مجموعه دادههای گفتار برای زبانهای آفریقایی تا به امروز را تولید کرد: بیش از ۱۱٬۰۰۰ ساعت گفتار ضبطشده از نزدیک به ۲ میلیون ضبط فردی، که ۲۱ زبان آفریقایی جنوب صحرا از جمله هائوسا، یوروبا، لوگاندا و آچولی را پوشش میدهد.
فراتر از جمعآوری گفتار عمومی، گوگل گفت که بیش از ۲۰ ساعت ضبط استودیویی با کیفیت بالا سرمایهگذاری کرده است تا صداهای مصنوعی طبیعی برای دستیارهای صوتی توسعه دهد. این ضبطهای "استودیویی پریمیوم" طراحی شدهاند تا پاسخهای هوش مصنوعی کمتر روباتیک و بیشتر معتبر فرهنگی به نظر برسند.
گوگل این ابتکار را به عنوان یک مدل مشارکتی ساختار داده است. دانشگاههایی مانند دانشگاه ماکرره در اوگاندا و دانشگاه غنا بخش زیادی از جمعآوری دادهها را رهبری کردند. شرکای محلی مالکیت مجموعه دادهها را حفظ میکنند که به عنوان متنباز تحت مجوزهایی که استفاده تجاری را مجاز میکنند، منتشر شدهاند.
"ما بیشتر راهنمایی و تامین مالی ارائه کردهایم،" دیاک توضیح داد. "تمام این مجموعه داده متعلق به ما نیست. متعلق به شرکایی است که با آنها کار میکنیم."
هدف صرفاً تغذیه محصولات خود گوگل نیست، بلکه ایجاد یک اکوسیستم است.
طی روزهای پس از انتشار، مجموعه داده بیش از ۴٬۰۰۰ دانلود را ثبت کرد، نشانه اولیه از پذیرش محققان و توسعهدهندگان، به گفته دیاک
گوگل از قبل ابزارهای ترجمه را در بسیاری از زبانها ارائه میدهد. پس چرا از ابتدا شروع کنیم؟
زیرا ترجمه، گفتار نیست.
ترجمه ماشینی سنتی به "متن موازی" وابسته است، جملاتی که به یک زبان نوشته شده و با معادلهای آن در زبان دیگر همسو هستند. برای زبانهای کممنبع، چنین مجموعههای موازی به سختی وجود دارد. و حتی زمانی که ترجمه کار میکند، مسئله عمیقتر را حل نمیکند: بسیاری از آفریقاییها در درجه اول از طریق گفتار با فناوری تعامل دارند.
"در واقع بسیاری از مردم در این قاره نمیدانند چگونه بخوانند و بنویسند،" دیاک گفت. "صدا اساساً دروازه فناوری است."
تصور کنید یک کشاورز در کادونا درباره پیشبینیهای آب و هوا به زبان هائوسا میپرسد. یا یک مادر در یک روستای روستایی غنایی که به دنبال مشاوره تغذیهای به زبان محلی خود است. سیستمهای مبتنی بر متن سواد و املای استاندارد را فرض میگیرند. سیستمهای صوتی باید در گویشها، زبان عامیانه، تغییر کد و الگوهای گفتار غیرمعمول حرکت کنند.
در غنا، یک پروژه تشخیص گفتار، ابتکار UGSpeechData، بیش از ۵٬۰۰۰ ساعت داده صوتی تولید کرد. آن ابتکار بعداً توسعه یک چتبات سلامت مادران که به زبانهای محلی فعالیت میکند را امکانپذیر کرد. همچنین به کار بر روی گفتار غیرمعمول گسترش یافت و به جوامع افراد ناشنوا و بازماندگان سکته مغزی که الگوهای گفتاری آنها اغلب سیستمهای هوش مصنوعی جریان اصلی را گیج میکند، کمک کرد.
"سیستمهای هوش مصنوعی به آن سازگار نشدهاند،" دیاک گفت. "اگر انواع مختلف گفتار داشته باشید، احتمالاً سیستم شما را درک نخواهد کرد."
گوگل در این مسابقه تنها نیست.
ماساخانه، یک مجموعه تحقیقاتی متنباز مردمی، سیستمهای ترجمه را در بیش از ۴۵ زبان آفریقایی ساخته و لولو را توسعه داده است، معیاری برای ارزیابی مدلهای زبانی آفریقایی. فلسفه آن جامعه محور و کاملاً باز است.
Lelapa AI آفریقای جنوبی، که توسط محققان سابق DeepMind تأسیس شده، بر محصولات پردازش زبان طبیعی (NLP) تجاری برای کسبوکارهای آفریقایی تمرکز دارد. مدل پرچم آن، Vulavula، گویشها و الگوهای تغییر کد شهری را در isiZulu، Sesotho و آفریکانس ضبط میکند. لیلاپا بر مجموعه دادههای "حقیقت زمینی" و تجزیه و تحلیل خطای انسانی سنگین تأکید دارد، رویکردی پرهزینه اما با وفاداری بالا.
Lesan AI در اتیوپی برخی از دقیقترین سیستمهای ترجمه را برای آمهری، تیگرینیا و اورومو با استفاده از یک مدل انسان در حلقه برای اطمینان از ظرافت فرهنگی ساخته است.
پروژه No Language Left Behind (NLLB-200) متا با رویکرد مقیاس عظیم، در سراسر ۲۰۰ زبان از جمله ۵۵ زبان آفریقایی با استفاده از یادگیری صفر-شات ترجمه میکند. مایکروسافت در همین حال، زبانهای آفریقایی را در Microsoft Translator ادغام میکند و در مجموعه دادههای کشاورزی چند وجهی از طریق پروژههایی مانند Gecko سرمایهگذاری میکند.
ابتکار African Next Voices که توسط بنیاد گیتس تامین مالی شده در اواخر سال ۲۰۲۵/۱۴۰۴ راهاندازی شد و ۹٬۰۰۰ ساعت داده گفتاری در ۱۸ زبان تولید کرد.
اکوسیستم متنوع است: مجموعههای متنباز، شرکتهای نوآفرین تجاری، غولهای فناوری بزرگ، تامینکنندگان مالی بشردوستانه. هر کدام به طور متفاوتی به مشکل نزدیک میشوند: مقیاس در برابر عمق، متن در برابر صدا، باز در برابر اختصاصی.
تمایز گوگل در رویکرد سنگین گفتاری و اکوسیستم محور آن نهفته است.
با این حال، مشارکت غولهای فناوری جهانی به طور اجتنابناپذیری سؤالاتی درباره حاکمیت داده و وابستگی ایجاد میکند.
اگر گوگل انتشار مجموعه دادههای گفتاری چندزبانه را هماهنگ کند، آیا این امر وابستگی ساختاری به محصولات گوگل ایجاد میکند؟ آیا توسعهدهندگان محلی میتوانند وابسته به ابزارهای تعبیهشده در Gemini، جستجو یا اندروید شوند؟
دیاک تنش را تصدیق میکند اما نسبت به تبدیل شدن به آنقدر متضاد که هیچ کاری در مورد فرصتی که ارائه شده انجام نشود، هشدار میدهد.
"مهمترین چیز این است که ما عقب نمانیم،" او گفت. "من قطعاً نمیخواهم دادههایم سوء استفاده شود. اما این در مورد توانمندسازی کارآفرینان، شرکتهای نوآفرین و محققان برای کار بر روی دادههایی است که واقعاً مهم هستند."
او موازیهایی با مشارکتهای بین دانشگاهها و شرکتهای فناوری در ایالات متحده و اروپا ترسیم میکند. او استدلال میکند که همکاری، ساخت قابلیت را تسریع میکند. از قبل، محققان درگیر در پروژههای اولیه مقالات منتشر کرده و به نقشهای تحقیقاتی جهانی پیشرفت کردهاند.
مدل مجوز باز برای آن استدلال مرکزی است. توسعهدهندگان میتوانند محصولات تجاری را بر روی مجموعه دادههای WAXAL بدون وابستگی به APIهای اختصاصی گوگل بسازند. گوگل همچنین مدلهای ترجمه وزن باز مانند Translate Gemma را منتشر کرده است که میتوان آنها را به طور مستقل دانلود و تنظیم دقیق کرد.
اینکه آیا این تعادل منتقدان را راضی میکند، باید دید. اما مقیاس شکاف زبانی نشان میدهد که عدم اقدام ممکن است خطرات بیشتری به همراه داشته باشد.
هوش مصنوعی صوتی به تنهایی وجود ندارد. به اتصال، پهنای باند و زیرساخت محاسباتی نیاز دارد.
"شما واقعاً نمیتوانید مدلهای هوش مصنوعی را بدون زیرساخت مناسب آموزش دهید،" دیاک گفت.
گوگل در کابلهای زیردریایی، از جمله فرود کابل Equiano در نیجریه و سایر بازارهای آفریقایی، سرمایهگذاری کرده است تا انعطافپذیری پهنای باند را تقویت کند. قطع فیبر در سالهای اخیر شکنندگی شبکههای منطقهای را آشکار کرد. زیرساخت افزونه با ظرفیت بالا نه تنها برای خدمات ابری بلکه برای مراکز داده محلی، یک ستون کلیدی حاکمیت دیجیتال، ضروری است.
توسعه هوش مصنوعی به سه پایه وابسته است: مردم، داده و زیرساخت. جمعیت جوان آفریقا، که پیشبینی میشود در دهههای آینده سهم بزرگی از کاربران جهانی هوش مصنوعی را تشکیل دهد، یک مزیت جمعیتی ارائه میدهد. اما بدون سرمایهگذاری در ظرفیت تحقیق و زیرساخت دیجیتال، پتانسیل جمعیتی به رهبری فناوری تبدیل نخواهد شد.
برای جلوگیری از تکهتکه شدن، گوگل از مشارکتهای دانشگاهی منزوی به مدلهای همکاری هماهنگتر تغییر کرده است. یکی از این تلاشها شامل کار با مرکز زبان ماساخانه و سایر شبکههای داوطلبانه برای توانمندسازی محققان و شرکتهای نوآفرین برای درخواست بودجه و کمک به مجموعه دادههای مشترک است.
"اگر همه ما کار خود را در سراسر قاره انجام دهیم، مؤثر نیست،" دیاک گفت. "ما به یک تلاش هماهنگ نیاز داریم."
تا کنون، WAXAL ۲۷ زبان از جمله چهار زبان نیجریهای را پوشش داده است. برخی از زبانهای از قبل پوشش داده شده شامل آچولی، آکان، داگاره، داگبانی، دولوئو، اوه، فانته، فولانی (فولا)، هائوسا، ایگبو، ایکپوسو (کپوسو)، کیکویو، لینگالا، لوگاندا، مالاگاسی، ماسابا، نیانکوله، روکیگا، شونا، سوگا (لوسوگا)، سواحیلی و یوروبا میشود.
جاهطلبی برای پرداختن به همه ۲٬۰۰۰ زبان آفریقایی آرمانی است، شاید نسلی.
"این رویای من است،" دیاک گفت.
اما اولویتبندی مهم است. او به آموزش، کشاورزی و بهداشت به عنوان حوزههای حیاتی اشاره میکند که در آن هوش مصنوعی صوتی میتواند تأثیر قابل اندازهگیری همسو با اهداف توسعه پایدار ارائه دهد.
پیشبینی آب و هوا یکپارچه شده در جستجوی گوگل، که از طریق ابتکارات تحقیقاتی آفریقایی بهبود یافته، از قبل سرریز جهانی را نشان میدهد. پروژههای تشخیص بیماری کاساوا مانند PlantVillage Nuru که از طریق مشارکت بین دانشگاه ایالتی پنسیلوانیا، موسسه بینالمللی کشاورزی گرمسیری (IITA) و گروه مشورتی تحقیقات کشاورزی بینالمللی (CGIAR) توسعه یافته، بر هوش مصنوعی کشاورزی فراتر از آفریقا تأثیر گذاشته است. این سوابق نشان میدهند که راهحلهای ساخته شده برای آفریقا میتوانند به صورت جهانی مقیاسپذیر باشند.
جمعآوری داده صوتی در تنظیمات کممنبع گران است. ضبط میدانی، رونویسی، اعتبارسنجی زبانشناختی و سنتز صدای با کیفیت استودیو نیاز به تامین مالی پایدار دارند.
سرمایهگذاری گوگل بخشی از یک تغییر گستردهتر صنعت از جمعآوری متن موجود به سرمایهگذاری در داده گفتاری اصلی است. مدل تأیید انسان در حلقه Lelapa AI بر هزینه دقت تأکید میکند. مجموعه داده FLORES-200 متا به مترجمان حرفهای متکی بود. ابتکارات صوتی کشاورزی مایکروسافت شامل هزاران ویدیوی حاشیهنویسی شده است.
کیفیت مهم است. صداهای مصنوعی باید طبیعی به نظر برسند. سیستمهای تشخیص باید تغییر کد را مدیریت کنند. گفتار شهری اغلب انگلیسی، زبانهای محلی و زبان عامیانه را در یک جمله ترکیب میکند.
هوش مصنوعی آفریقایی نمیتواند صرفاً از طریق اتوماسیون ساخته شود؛ به تخصص فرهنگی و زبانشناختی نیاز دارد.
برای دیاک، موفقیت صرفاً با یکپارچهسازی محصول سنجیده نمیشود.
"من میخواهم شرکتهای نوآفرینی را ببینم که از مجموعه داده برای ارائه خدمات به زبانهای محلی استفاده میکنند،" او گفت. "میخواهم محققانی را ببینم که بر اساس زبانهای ما مقالات مینویسند، نه فقط انگلیسی."
در نهایت، با این حال، دری که گوگل میسازد باید به جایی ملموس منتهی شود. این شامل محصولات گوگل است؛ جستجو، Gemini، دستیارهای صوتی، که به طور روان به یوروبا، ولوف، هائوسا یا لوگاندا تعامل میکنند. اما همچنین شامل شرکتهای نوآفرین مستقل است که ابزارهای فینتک، چتباتهای بهداشتی یا سیستمهای مشاوره کشاورزی میسازند.
در هر صورت، آینده هوش مصنوعی آفریقا به این بستگی دارد که آیا صدا یک نیروی برابرسازی میشود یا یک فرصت از دست رفته دیگر. اگر گفتار توسط سیستمهای جهانی شناسایی نشود، میلیاردها کلمهای که روزانه در سراسر قاره گفته میشود، به صورت دیجیتال نامرئی باقی خواهند ماند.


