عندما يتحدث عبد الله دياك، مدير البرنامج في Google Research، وهو قسم من Google مخصص للنهوض بأحدث ما توصلت إليه علوم الكمبيوتر وتطبيق تلك الإنجازات على المشكلات الواقعية، عن أصول WAXAL، وهي مجموعة بيانات كلام مفتوحة المصدر من Google Research Africa، يبدأ بكلمة واحدة.
"WAXAL تعني 'التحدث'،" قال لـ TechCabal، مشيرًا إلى جذورها في الولوف، وهي لغة منتشرة على نطاق واسع في منطقة سينيغامبيا.
الاسم، الذي تم اختياره في عام 2020 من قبل قائد الأبحاث السنغالي في Google، مصطفى سيسي، يعكس حقيقة أكبر حول مسار الذكاء الاصطناعي في أفريقيا: في قارة بها أكثر من 2000 لغة، معظمها منطوقة وليست مكتوبة، الصوت ليس اختياريًا؛ إنه نقطة الدخول.
لسنوات، تمحورت التكنولوجيا الرقمية حول معرفة القراءة والكتابة ولوحات المفاتيح والنصوص. ولكن في أفريقيا، تعيش اللغة في المحادثة، عبر الأسواق والمزارع والعيادات والمنازل. الذكاء الاصطناعي الذي لا يستطيع تحليل اللهجات أو النبرة أو التبديل بين اللغات لا يمكنه خدمة معظم الأفارقة بشكل هادف. يهدف WAXAL إلى تغيير ذلك. بدلاً من التركيز فقط على ترجمة النصوص، يعمل المشروع على إنشاء البنية التحتية الأساسية للذكاء الاصطناعي من الكلام إلى الكلام في اللغات الأفريقية منخفضة الموارد، مع التركيز على بناء مركز ضخم وعالي الجودة من "المواد الخام" اللغوية.
"وجود ذكاء اصطناعي يمكنه التحدث إلينا بلغتنا وفهمنا، سواء كانت لهجتنا أو نبرتنا، أمر مهم حقًا،" قال دياك.
يبدأ التحدي بعدم توازن صارخ. أكثر من 50٪ من جميع مواقع الويب باللغة الإنجليزية وحفنة من اللغات الغربية. بالكاد تسجل اللغات الأفريقية البالغ عددها أكثر من 2000 لغة في مجموعات البيانات الرقمية العالمية. معظمها ممثل تمثيلاً ناقصًا عبر الإنترنت. الكثير منها غير مكتوب على نطاق واسع. البعض غير موحد على الإطلاق.
إذا تم تدريب نماذج الذكاء الاصطناعي على نصوص رقمية، وبالكاد توجد نصوص رقمية للغات الأفريقية، فإن القارة تبدأ سباق الذكاء الاصطناعي في وضع غير مؤات هيكليًا.
"هذه ليست مشكلة جديدة،" قال دياك. "الأشخاص في مجال البحث على دراية بهذه الفجوة الهائلة في نقص البيانات."
بدون بيانات، لا يمكن تدريب النماذج. بدون نماذج مدربة، تسيء أنظمة الذكاء الاصطناعي السمع أو الترجمة أو تتجاهل مجموعات سكانية بأكملها. يروي دياك إحباطًا شائعًا: التحدث بلهجة أفريقية فرانكفونية بينما يكافح نظام تدوين الملاحظات بالذكاء الاصطناعي لفهمه. التكنولوجيا موجودة، لكنها غير متناغمة مع السياق المحلي.
هذه الفجوة هي ما يريد WAXAL سدها.
بعد إطلاقه رسميًا في فبراير 2026 بعد ثلاث سنوات من التطوير، أنتج WAXAL واحدة من أكبر مجموعات بيانات الكلام للغات الأفريقية حتى الآن: أكثر من 11000 ساعة من الكلام المسجل من ما يقرب من 2 مليون تسجيل فردي، تغطي 21 لغة أفريقية جنوب الصحراء الكبرى، بما في ذلك الهوسا واليوروبا واللوغندا والأشولي.
بالإضافة إلى جمع الكلام العام، قالت Google إنها استثمرت أكثر من 20 ساعة من التسجيلات الاستوديو عالية الجودة لتطوير أصوات اصطناعية تبدو طبيعية للمساعدين الصوتيين. تم تصميم هذه التسجيلات "الممتازة بالاستوديو" لجعل استجابات الذكاء الاصطناعي تبدو أقل آلية وأكثر أصالة ثقافية.
نظمت Google المبادرة كنموذج شراكة. قادت جامعات مثل جامعة ماكيريري في أوغندا وجامعة غانا الكثير من جمع البيانات. يحتفظ الشركاء المحليون بملكية مجموعات البيانات، والتي تم إصدارها كمصدر مفتوح بموجب تراخيص تسمح بالاستخدام التجاري.
"لقد قدمنا في الغالب التوجيه والتمويل،" أوضح دياك. "كل مجموعة البيانات هذه ليست ملكًا لنا. إنها ملك للشركاء الذين نعمل معهم."
الطموح ليس مجرد إطعام منتجات Google الخاصة بل زرع نظام بيئي.
في غضون أيام من الإصدار، سجلت مجموعة البيانات أكثر من 4000 عملية تنزيل، وهي علامة مبكرة على اهتمام الباحثين والمطورين، وفقًا لدياك
تقدم Google بالفعل أدوات ترجمة عبر العديد من اللغات. فلماذا نبدأ من الصفر؟
لأن الترجمة ليست كلامًا.
تعتمد الترجمة الآلية التقليدية على "النص الموازي"، وهي جمل مكتوبة بلغة واحدة متوافقة مع ما يعادلها في لغة أخرى. بالنسبة للغات منخفضة الموارد، بالكاد توجد مثل هذه المدونات الموازية. وحتى عندما تعمل الترجمة، فإنها لا تحل المشكلة الأعمق: يتفاعل العديد من الأفارقة مع التكنولوجيا بشكل أساسي من خلال الكلام.
"الكثير من الناس في الواقع لا يعرفون كيف يقرؤون ويكتبون في القارة،" قال دياك. "الصوت هو في الأساس بوابة التكنولوجيا."
تخيل مزارعًا في كادونا يسأل عن توقعات الطقس باللغة الهوسا. أو أم في قرية غانية ريفية تبحث عن نصائح غذائية بلغتها المحلية. تفترض الأنظمة القائمة على النصوص معرفة القراءة والكتابة والإملاء الموحد. يجب أن تتنقل الأنظمة الصوتية بين اللهجات والعامية والتبديل بين اللغات وأنماط الكلام غير النمطية.
في غانا، أنتج مشروع التعرف على الكلام، مبادرة UGSpeechData، أكثر من 5000 ساعة من بيانات الصوت. مكنت تلك المبادرة لاحقًا من تطوير روبوت محادثة لصحة الأمهات يعمل باللغات المحلية. كما امتدت إلى العمل على الكلام غير النمطي، مما ساعد مجتمعات الأفراد الصم والناجين من السكتات الدماغية الذين غالبًا ما تربك أنماط كلامهم أنظمة الذكاء الاصطناعي السائدة.
"أنظمة الذكاء الاصطناعي غير متكيفة مع ذلك،" قال دياك. "إذا كان لديك أنواع مختلفة من الكلام، فمن المحتمل أن النظام لن يفهمك."
Google ليست وحدها في هذا السباق.
بنت Masakhane، وهي مجموعة أبحاث مفتوحة المصدر شعبية، أنظمة ترجمة عبر أكثر من 45 لغة أفريقية وطورت Lulu، وهو معيار لتقييم نماذج اللغة الأفريقية. فلسفتها هي المجتمع أولاً ومفتوحة بالكامل.
تركز Lelapa AI في جنوب أفريقيا، التي أسسها باحثون سابقون في DeepMind، على منتجات معالجة اللغة الطبيعية التجارية للشركات الأفريقية. يلتقط نموذجها الرئيسي، Vulavula، اللهجات وأنماط التبديل بين اللغات الحضرية في isiZulu وSesotho والأفريكانية. تؤكد Lelapa على مجموعات بيانات "الحقيقة الأرضية" وتحليل الأخطاء البشرية الثقيلة، وهو نهج مكلف ولكنه عالي الدقة.
بنت Lesan AI في إثيوبيا بعضًا من أدق أنظمة الترجمة للأمهرية والتيغرينية والأورومو باستخدام نموذج الإنسان في الحلقة لضمان الفروق الثقافية الدقيقة.
يتخذ مشروع No Language Left Behind (NLLB-200) من Meta نهجًا واسع النطاق، حيث يترجم عبر 200 لغة، بما في ذلك 55 لغة أفريقية، باستخدام التعلم بدون لقطة. في الوقت نفسه، تدمج Microsoft اللغات الأفريقية في Microsoft Translator وتستثمر في مجموعات البيانات الزراعية متعددة الوسائط من خلال مشاريع مثل Gecko.
أطلقت مبادرة African Next Voices الممولة من مؤسسة Gates في أواخر عام 2025، منتجة 9000 ساعة من بيانات الكلام عبر 18 لغة.
النظام البيئي متنوع: مجموعات مفتوحة المصدر، شركات ناشئة تجارية، عمالقة التكنولوجيا الكبرى، الممولون الخيريون. يتناول كل منهم المشكلة بشكل مختلف: الحجم مقابل العمق، النص مقابل الصوت، المفتوح مقابل الملكية.
يكمن تميز Google في نهجها المكثف للكلام والموجه نحو النظام البيئي.
ومع ذلك، فإن مشاركة عمالقة التكنولوجيا العالميين تثير حتمًا تساؤلات حول سيادة البيانات والاعتماد.
إذا نسقت Google إصدار مجموعات بيانات الكلام متعددة اللغات، فهل يخلق ذلك اعتمادًا هيكليًا على منتجات Google؟ هل يمكن أن يصبح المطورون المحليون معتمدين على الأدوات المضمنة في Gemini أو Search أو Android؟
يعترف دياك بالتوتر لكنه يحذر من أن نصبح متضاربين للغاية بحيث لا يتم فعل أي شيء حيال الفرصة المقدمة.
"الأهم هو ألا نتخلف عن الركب،" قال. "بالتأكيد لا أريد إساءة استخدام بياناتي. لكن هذا يتعلق بتمكين رواد الأعمال والشركات الناشئة والباحثين من العمل على البيانات المهمة حقًا."
يرسم أوجه تشابه مع الشراكات بين الجامعات وشركات التكنولوجيا في الولايات المتحدة وأوروبا. التعاون، كما يجادل، يسرع بناء القدرات. بالفعل، نشر الباحثون المشاركون في المشاريع المبكرة أوراقًا وتقدموا إلى أدوار بحثية عالمية.
نموذج الترخيص المفتوح أمر أساسي لهذه الحجة. يمكن للمطورين بناء منتجات تجارية فوق مجموعات بيانات WAXAL دون الاعتماد على واجهات برمجة التطبيقات الخاصة بـ Google. أصدرت Google أيضًا نماذج ترجمة مفتوحة الوزن مثل Translate Gemma، والتي يمكن تنزيلها وضبطها بشكل مستقل.
ما إذا كان هذا التوازن يرضي النقاد يبقى أن نرى. لكن حجم الفجوة اللغوية يشير إلى أن التقاعس قد يحمل مخاطر أكبر.
لا يوجد الذكاء الاصطناعي الصوتي في عزلة. إنه يتطلب الاتصال وعرض النطاق الترددي والبنية التحتية الحاسوبية.
"لا يمكنك حقًا تدريب نماذج الذكاء الاصطناعي بدون البنية التحتية المناسبة،" قال دياك.
استثمرت Google في كابلات تحت الماء، بما في ذلك هبوط كابل Equiano في نيجيريا والأسواق الأفريقية الأخرى، لتعزيز مرونة النطاق العريض. كشفت قطع الألياف في السنوات الأخيرة عن هشاشة الشبكات الإقليمية. البنية التحتية الزائدة عالية السعة ضرورية ليس فقط للخدمات السحابية ولكن أيضًا لمراكز البيانات المحلية، وهي ركيزة أساسية للسيادة الرقمية.
يعتمد تطوير الذكاء الاصطناعي على ثلاثة أسس: الأشخاص والبيانات والبنية التحتية. يوفر سكان أفريقيا الشباب، المتوقع أن يمثلوا حصة كبيرة من مستخدمي الذكاء الاصطناعي العالميين في العقود القادمة، ميزة ديموغرافية. لكن بدون الاستثمار في القدرات البحثية والبنية التحتية الرقمية، لن تترجم الإمكانات الديموغرافية إلى قيادة تكنولوجية.
لتجنب التجزئة، انتقلت Google من شراكات جامعية معزولة إلى نماذج تعاون أكثر تنسيقًا. يتضمن أحد هذه الجهود العمل مع مركز اللغة في Masakhane وشبكات المتطوعين الأخرى لتمكين الباحثين والشركات الناشئة من التقدم للحصول على التمويل والمساهمة في مجموعات البيانات المشتركة.
"إذا كنا جميعًا نفعل شيئنا الخاص عبر القارة، فهذا ليس فعالًا،" قال دياك. "نحن بحاجة إلى جهد متضافر."
حتى الآن، غطى WAXAL 27 لغة، بما في ذلك أربع لغات نيجيرية. تتضمن بعض اللغات المغطاة بالفعل Acholi وAkan وDagaare وDagbani وDholuo وEwe وFante وFulani (Fula) وHausa وIgbo وIkposo (Kposo) وKikuyu وLingala وLuganda وMalagasy وMasaaba وNyankole وRukiga وShona وSoga (Lusoga) وSwahili وYoruba.
الطموح لمعالجة جميع اللغات الأفريقية البالغ عددها أكثر من 2000 هو طموح، ربما جيلي.
"هذا حلمي،" قال دياك.
لكن تحديد الأولويات مهم. يشير إلى التعليم والزراعة والصحة كمجالات حرجة حيث يمكن للذكاء الاصطناعي الصوتي تقديم تأثير قابل للقياس يتماشى مع أهداف التنمية المستدامة.
توقعات الطقس المدمجة في Google Search، المحسنة من خلال مبادرات البحث الأفريقية، تظهر بالفعل تأثيرًا عالميًا. أثرت مشاريع الكشف عن أمراض الكسافا مثل PlantVillage Nuru المطورة من خلال شراكة بين جامعة Penn State والمعهد الدولي للزراعة الاستوائية (IITA) والمجموعة الاستشارية للبحوث الزراعية الدولية (CGIAR)، على الذكاء الاصطناعي الزراعي خارج أفريقيا. تشير هذه السوابق إلى أن الحلول المبنية لأفريقيا يمكن أن تتوسع عالميًا.
جمع بيانات الصوت في البيئات منخفضة الموارد مكلف. تتطلب التسجيلات الميدانية والنسخ والتحقق اللغوي وتركيب الصوت بجودة الاستوديو تمويلًا مستدامًا.
استثمار Google جزء من تحول صناعي أوسع من الكشط عن النص المتاح إلى الاستثمار في بيانات الكلام الأصلية. يؤكد نموذج التحقق من الإنسان في الحلقة لـ Lelapa AI على تكلفة الدقة. اعتمدت مجموعة بيانات FLORES-200 من Meta على مترجمين محترفين. تتضمن مبادرات الصوت الزراعي لـ Microsoft آلاف مقاطع الفيديو المشروحة.
الجودة مهمة. يجب أن تبدو الأصوات الاصطناعية طبيعية. يجب أن تتعامل أنظمة التعرف مع التبديل بين اللغات. غالبًا ما يمزج الكلام الحضري بين الإنجليزية واللغات المحلية والعامية في نفس الجملة.
لا يمكن بناء الذكاء الاصطناعي الأفريقي فقط من خلال الأتمتة؛ بل يتطلب خبرة ثقافية ولغوية.
بالنسبة لدياك، لا يُقاس النجاح فقط بتكامل المنتج.
"أريد أن أرى الشركات الناشئة تستفيد من مجموعة البيانات لتقديم الخدمات باللغات المحلية،" قال. "أريد أن أرى الباحثين يكتبون أوراقًا بناءً على لغاتنا، وليس الإنجليزية فقط."
في النهاية، ومع ذلك، يجب أن يؤدي الباب الذي تبنيه Google إلى مكان ملموس. يتضمن ذلك منتجات Google؛ Search وGemini والمساعدين الصوتيين، التي تتفاعل بطلاقة في Yoruba وWolof وHausa أو Luganda. لكنها تتضمن أيضًا الشركات الناشئة المستقلة التي تبني أدوات التكنولوجيا المالية وروبوتات المحادثة الصحية أو أنظمة الاستشارات الزراعية.
إن أي شيء، مستقبل الذكاء الاصطناعي في أفريقيا يعتمد على ما إذا كان الصوت يصبح قوة معادلة أو فرصة أخرى ضائعة. إذا ظل الكلام غير معترف به من قبل الأنظمة العالمية، فستظل مليارات الكلمات المنطوقة يوميًا عبر القارة غير مرئية رقميًا.


