خرید ارز دیجیتال بازارها اسپات فیوچرزGOLD پس انداز مرکز رویداد

بیشتر

گوگل در حال معرفی WAXAL است، یک مجموعه داده گفتاری متن‌باز از Google Research Africa که به زبان‌های بومی متعدد آفریقایی صحبت می‌کندگوگل در حال معرفی WAXAL است، یک مجموعه داده گفتاری متن‌باز از Google Research Africa که به زبان‌های بومی متعدد آفریقایی صحبت می‌کند

چگونه گوگل می‌خواهد 2000 زبان آفریقا را به هوش مصنوعی بیاموزد

منبع: Techcabal

2026/02/12 21:33

مدت مطالعه: 11 دقیقه

اشتراک

برای ارائه بازخورد یا طرح هرگونه نگرانی درباره این محتوا، لطفاً با ما از طریق crypto.news@mexc.com تماس بگیرید.

زمانی که عبدالله دیاک، مدیر برنامه در Google Research، بخشی از گوگل که به پیشبرد پیشرفته‌ترین دستاوردها در علوم کامپیوتر و به کارگیری آن دستاوردها برای حل مشکلات دنیای واقعی اختصاص دارد، درباره منشأ WAXAL، یک مجموعه داده گفتار متن‌باز از Google Research Africa صحبت می‌کند، با یک کلمه شروع می‌کند.

"WAXAL به معنای 'صحبت کردن' است،" او به TechCabal گفت و به ریشه‌های آن در ولوف، یک زبان پرکاربرد در منطقه سنگامبیا اشاره کرد.

این نام که در سال ۲۰۲۰/۱۳۹۹ توسط یک رهبر تحقیقاتی سنگالی در گوگل، موستاف سیس، انتخاب شد، حقیقتی بزرگ‌تر درباره مسیر هوش مصنوعی آفریقا را منعکس می‌کند: در قاره‌ای با بیش از ۲٬۰۰۰ زبان، که اکثر آنها گفتاری هستند نه نوشتاری، صدا اختیاری نیست؛ بلکه نقطه ورود است.

سال‌ها، فناوری دیجیتال بر سواد، صفحه‌کلید و متن متمرکز بوده است. اما در آفریقا، زبان در مکالمه، در بازارها، مزارع، کلینیک‌ها و خانه‌ها زندگی می‌کند. هوش مصنوعی که نمی‌تواند لهجه‌ها، لحن یا تغییر کد را تجزیه و تحلیل کند، نمی‌تواند به طور معنادار به اکثر آفریقایی‌ها خدمت کند. WAXAL قصد دارد این را تغییر دهد. به جای تمرکز صرف بر ترجمه متن، این پروژه زیرساخت بنیادی برای هوش مصنوعی گفتار به گفتار در زبان‌های آفریقایی کم‌منبع را ایجاد می‌کند، با تمرکز بر ساخت یک مرکز وسیع و با کیفیت بالا از "مواد خام" زبانی.

"داشتن هوش مصنوعی که بتواند به زبان ما با ما صحبت کند و ما را درک کند، چه لهجه‌مان باشد چه لحن‌مان، واقعاً بسیار مهم است،" دیاک گفت.

محرومیت داده

چالش با یک عدم تعادل آشکار شروع می‌شود. بیش از ۵۰٪ از تمام وب‌سایت‌ها به انگلیسی و تعداد اندکی از زبان‌های غربی هستند. ۲٬۰۰۰ زبان آفریقا به سختی در مجموعه داده‌های دیجیتال جهانی ثبت می‌شوند. اکثر آنها در فضای آنلاین کم‌نمایندگی شده‌اند. بسیاری به طور گسترده نوشته نمی‌شوند. برخی اصلاً استاندارد نشده‌اند.

اگر مدل‌های هوش مصنوعی بر روی متن دیجیتال آموزش داده شوند، و متن دیجیتال برای زبان‌های آفریقایی تقریباً وجود نداشته باشد، آنگاه این قاره مسابقه هوش مصنوعی را با یک نقطه ضعف ساختاری شروع می‌کند.

"این مشکل جدیدی نیست،" دیاک گفت. "افراد در زمینه تحقیق از این شکاف عظیم در فقدان داده آگاه هستند."

بدون داده، مدل‌ها نمی‌توانند آموزش ببینند. بدون مدل‌های آموزش‌دیده، سیستم‌های هوش مصنوعی اشتباه می‌شنوند، اشتباه ترجمه می‌کنند یا جمعیت‌های کامل را نادیده می‌گیرند. دیاک یک ناامیدی رایج را بازگو می‌کند: صحبت کردن با لهجه آفریقایی فرانسوی‌زبان در حالی که یک سیستم یادداشت‌برداری هوش مصنوعی برای درک او تلاش می‌کند. فناوری وجود دارد، اما برای زمینه محلی تنظیم نشده است.

آن شکاف چیزی است که WAXAL می‌خواهد ببندد.

ساخت پایه گفتار

WAXAL که رسماً در فوریه ۲۰۲۶/بهمن ۱۴۰۴ پس از سه سال توسعه راه‌اندازی شد، یکی از بزرگ‌ترین مجموعه داده‌های گفتار برای زبان‌های آفریقایی تا به امروز را تولید کرد: بیش از ۱۱٬۰۰۰ ساعت گفتار ضبط‌شده از نزدیک به ۲ میلیون ضبط فردی، که ۲۱ زبان آفریقایی جنوب صحرا از جمله هائوسا، یوروبا، لوگاندا و آچولی را پوشش می‌دهد.

فراتر از جمع‌آوری گفتار عمومی، گوگل گفت که بیش از ۲۰ ساعت ضبط استودیویی با کیفیت بالا سرمایه‌گذاری کرده است تا صداهای مصنوعی طبیعی برای دستیارهای صوتی توسعه دهد. این ضبط‌های "استودیویی پریمیوم" طراحی شده‌اند تا پاسخ‌های هوش مصنوعی کمتر روباتیک و بیشتر معتبر فرهنگی به نظر برسند.

گوگل این ابتکار را به عنوان یک مدل مشارکتی ساختار داده است. دانشگاه‌هایی مانند دانشگاه ماکرره در اوگاندا و دانشگاه غنا بخش زیادی از جمع‌آوری داده‌ها را رهبری کردند. شرکای محلی مالکیت مجموعه داده‌ها را حفظ می‌کنند که به عنوان متن‌باز تحت مجوزهایی که استفاده تجاری را مجاز می‌کنند، منتشر شده‌اند.

"ما بیشتر راهنمایی و تامین مالی ارائه کرده‌ایم،" دیاک توضیح داد. "تمام این مجموعه داده متعلق به ما نیست. متعلق به شرکایی است که با آنها کار می‌کنیم."

هدف صرفاً تغذیه محصولات خود گوگل نیست، بلکه ایجاد یک اکوسیستم است.

طی روزهای پس از انتشار، مجموعه داده بیش از ۴٬۰۰۰ دانلود را ثبت کرد، نشانه اولیه از پذیرش محققان و توسعه‌دهندگان، به گفته دیاک

چرا صدا مهم است

گوگل از قبل ابزارهای ترجمه را در بسیاری از زبان‌ها ارائه می‌دهد. پس چرا از ابتدا شروع کنیم؟

زیرا ترجمه، گفتار نیست.

ترجمه ماشینی سنتی به "متن موازی" وابسته است، جملاتی که به یک زبان نوشته شده و با معادل‌های آن در زبان دیگر همسو هستند. برای زبان‌های کم‌منبع، چنین مجموعه‌های موازی به سختی وجود دارد. و حتی زمانی که ترجمه کار می‌کند، مسئله عمیق‌تر را حل نمی‌کند: بسیاری از آفریقایی‌ها در درجه اول از طریق گفتار با فناوری تعامل دارند.

"در واقع بسیاری از مردم در این قاره نمی‌دانند چگونه بخوانند و بنویسند،" دیاک گفت. "صدا اساساً دروازه فناوری است."

تصور کنید یک کشاورز در کادونا درباره پیش‌بینی‌های آب و هوا به زبان هائوسا می‌پرسد. یا یک مادر در یک روستای روستایی غنایی که به دنبال مشاوره تغذیه‌ای به زبان محلی خود است. سیستم‌های مبتنی بر متن سواد و املای استاندارد را فرض می‌گیرند. سیستم‌های صوتی باید در گویش‌ها، زبان عامیانه، تغییر کد و الگوهای گفتار غیرمعمول حرکت کنند.

در غنا، یک پروژه تشخیص گفتار، ابتکار UGSpeechData، بیش از ۵٬۰۰۰ ساعت داده صوتی تولید کرد. آن ابتکار بعداً توسعه یک چت‌بات سلامت مادران که به زبان‌های محلی فعالیت می‌کند را امکان‌پذیر کرد. همچنین به کار بر روی گفتار غیرمعمول گسترش یافت و به جوامع افراد ناشنوا و بازماندگان سکته مغزی که الگوهای گفتاری آنها اغلب سیستم‌های هوش مصنوعی جریان اصلی را گیج می‌کند، کمک کرد.

"سیستم‌های هوش مصنوعی به آن سازگار نشده‌اند،" دیاک گفت. "اگر انواع مختلف گفتار داشته باشید، احتمالاً سیستم شما را درک نخواهد کرد."

میدان شلوغ

گوگل در این مسابقه تنها نیست.

ماساخانه، یک مجموعه تحقیقاتی متن‌باز مردمی، سیستم‌های ترجمه را در بیش از ۴۵ زبان آفریقایی ساخته و لولو را توسعه داده است، معیاری برای ارزیابی مدل‌های زبانی آفریقایی. فلسفه آن جامعه محور و کاملاً باز است.

Lelapa AI آفریقای جنوبی، که توسط محققان سابق DeepMind تأسیس شده، بر محصولات پردازش زبان طبیعی (NLP) تجاری برای کسب‌وکارهای آفریقایی تمرکز دارد. مدل پرچم آن، Vulavula، گویش‌ها و الگوهای تغییر کد شهری را در isiZulu، Sesotho و آفریکانس ضبط می‌کند. لیلاپا بر مجموعه داده‌های "حقیقت زمینی" و تجزیه و تحلیل خطای انسانی سنگین تأکید دارد، رویکردی پرهزینه اما با وفاداری بالا.

Lesan AI در اتیوپی برخی از دقیق‌ترین سیستم‌های ترجمه را برای آمهری، تیگرینیا و اورومو با استفاده از یک مدل انسان در حلقه برای اطمینان از ظرافت فرهنگی ساخته است.

پروژه No Language Left Behind (NLLB-200) متا با رویکرد مقیاس عظیم، در سراسر ۲۰۰ زبان از جمله ۵۵ زبان آفریقایی با استفاده از یادگیری صفر-شات ترجمه می‌کند. مایکروسافت در همین حال، زبان‌های آفریقایی را در Microsoft Translator ادغام می‌کند و در مجموعه داده‌های کشاورزی چند وجهی از طریق پروژه‌هایی مانند Gecko سرمایه‌گذاری می‌کند.

ابتکار African Next Voices که توسط بنیاد گیتس تامین مالی شده در اواخر سال ۲۰۲۵/۱۴۰۴ راه‌اندازی شد و ۹٬۰۰۰ ساعت داده گفتاری در ۱۸ زبان تولید کرد.

اکوسیستم متنوع است: مجموعه‌های متن‌باز، شرکت‌های نوآفرین تجاری، غول‌های فناوری بزرگ، تامین‌کنندگان مالی بشردوستانه. هر کدام به طور متفاوتی به مشکل نزدیک می‌شوند: مقیاس در برابر عمق، متن در برابر صدا، باز در برابر اختصاصی.

تمایز گوگل در رویکرد سنگین گفتاری و اکوسیستم محور آن نهفته است.

حاکمیت در برابر فلج

با این حال، مشارکت غول‌های فناوری جهانی به طور اجتناب‌ناپذیری سؤالاتی درباره حاکمیت داده و وابستگی ایجاد می‌کند.

اگر گوگل انتشار مجموعه داده‌های گفتاری چندزبانه را هماهنگ کند، آیا این امر وابستگی ساختاری به محصولات گوگل ایجاد می‌کند؟ آیا توسعه‌دهندگان محلی می‌توانند وابسته به ابزارهای تعبیه‌شده در Gemini، جستجو یا اندروید شوند؟

دیاک تنش را تصدیق می‌کند اما نسبت به تبدیل شدن به آنقدر متضاد که هیچ کاری در مورد فرصتی که ارائه شده انجام نشود، هشدار می‌دهد.

"مهم‌ترین چیز این است که ما عقب نمانیم،" او گفت. "من قطعاً نمی‌خواهم داده‌هایم سوء استفاده شود. اما این در مورد توانمندسازی کارآفرینان، شرکت‌های نوآفرین و محققان برای کار بر روی داده‌هایی است که واقعاً مهم هستند."

او موازی‌هایی با مشارکت‌های بین دانشگاه‌ها و شرکت‌های فناوری در ایالات متحده و اروپا ترسیم می‌کند. او استدلال می‌کند که همکاری، ساخت قابلیت را تسریع می‌کند. از قبل، محققان درگیر در پروژه‌های اولیه مقالات منتشر کرده و به نقش‌های تحقیقاتی جهانی پیشرفت کرده‌اند.

مدل مجوز باز برای آن استدلال مرکزی است. توسعه‌دهندگان می‌توانند محصولات تجاری را بر روی مجموعه داده‌های WAXAL بدون وابستگی به APIهای اختصاصی گوگل بسازند. گوگل همچنین مدل‌های ترجمه وزن باز مانند Translate Gemma را منتشر کرده است که می‌توان آنها را به طور مستقل دانلود و تنظیم دقیق کرد.

اینکه آیا این تعادل منتقدان را راضی می‌کند، باید دید. اما مقیاس شکاف زبانی نشان می‌دهد که عدم اقدام ممکن است خطرات بیشتری به همراه داشته باشد.

زیرساخت: پیش‌نیاز خاموش

هوش مصنوعی صوتی به تنهایی وجود ندارد. به اتصال، پهنای باند و زیرساخت محاسباتی نیاز دارد.

"شما واقعاً نمی‌توانید مدل‌های هوش مصنوعی را بدون زیرساخت مناسب آموزش دهید،" دیاک گفت.

گوگل در کابل‌های زیردریایی، از جمله فرود کابل Equiano در نیجریه و سایر بازارهای آفریقایی، سرمایه‌گذاری کرده است تا انعطاف‌پذیری پهنای باند را تقویت کند. قطع فیبر در سال‌های اخیر شکنندگی شبکه‌های منطقه‌ای را آشکار کرد. زیرساخت افزونه با ظرفیت بالا نه تنها برای خدمات ابری بلکه برای مراکز داده محلی، یک ستون کلیدی حاکمیت دیجیتال، ضروری است.

توسعه هوش مصنوعی به سه پایه وابسته است: مردم، داده و زیرساخت. جمعیت جوان آفریقا، که پیش‌بینی می‌شود در دهه‌های آینده سهم بزرگی از کاربران جهانی هوش مصنوعی را تشکیل دهد، یک مزیت جمعیتی ارائه می‌دهد. اما بدون سرمایه‌گذاری در ظرفیت تحقیق و زیرساخت دیجیتال، پتانسیل جمعیتی به رهبری فناوری تبدیل نخواهد شد.

چالش هماهنگی

برای جلوگیری از تکه‌تکه شدن، گوگل از مشارکت‌های دانشگاهی منزوی به مدل‌های همکاری هماهنگ‌تر تغییر کرده است. یکی از این تلاش‌ها شامل کار با مرکز زبان ماساخانه و سایر شبکه‌های داوطلبانه برای توانمندسازی محققان و شرکت‌های نوآفرین برای درخواست بودجه و کمک به مجموعه داده‌های مشترک است.

"اگر همه ما کار خود را در سراسر قاره انجام دهیم، مؤثر نیست،" دیاک گفت. "ما به یک تلاش هماهنگ نیاز داریم."

تا کنون، WAXAL ۲۷ زبان از جمله چهار زبان نیجریه‌ای را پوشش داده است. برخی از زبان‌های از قبل پوشش داده شده شامل آچولی، آکان، داگاره، داگبانی، دولوئو، اوه، فانته، فولانی (فولا)، هائوسا، ایگبو، ایکپوسو (کپوسو)، کیکویو، لینگالا، لوگاندا، مالاگاسی، ماسابا، نیانکوله، روکیگا، شونا، سوگا (لوسوگا)، سواحیلی و یوروبا می‌شود.

جاه‌طلبی برای پرداختن به همه ۲٬۰۰۰ زبان آفریقایی آرمانی است، شاید نسلی.

"این رویای من است،" دیاک گفت.

اما اولویت‌بندی مهم است. او به آموزش، کشاورزی و بهداشت به عنوان حوزه‌های حیاتی اشاره می‌کند که در آن هوش مصنوعی صوتی می‌تواند تأثیر قابل اندازه‌گیری همسو با اهداف توسعه پایدار ارائه دهد.

پیش‌بینی آب و هوا یکپارچه شده در جستجوی گوگل، که از طریق ابتکارات تحقیقاتی آفریقایی بهبود یافته، از قبل سرریز جهانی را نشان می‌دهد. پروژه‌های تشخیص بیماری کاساوا مانند PlantVillage Nuru که از طریق مشارکت بین دانشگاه ایالتی پنسیلوانیا، موسسه بین‌المللی کشاورزی گرمسیری (IITA) و گروه مشورتی تحقیقات کشاورزی بین‌المللی (CGIAR) توسعه یافته، بر هوش مصنوعی کشاورزی فراتر از آفریقا تأثیر گذاشته است. این سوابق نشان می‌دهند که راه‌حل‌های ساخته شده برای آفریقا می‌توانند به صورت جهانی مقیاس‌پذیر باشند.

هزینه هوش مصنوعی بومی محور

جمع‌آوری داده صوتی در تنظیمات کم‌منبع گران است. ضبط میدانی، رونویسی، اعتبارسنجی زبان‌شناختی و سنتز صدای با کیفیت استودیو نیاز به تامین مالی پایدار دارند.

سرمایه‌گذاری گوگل بخشی از یک تغییر گسترده‌تر صنعت از جمع‌آوری متن موجود به سرمایه‌گذاری در داده گفتاری اصلی است. مدل تأیید انسان در حلقه Lelapa AI بر هزینه دقت تأکید می‌کند. مجموعه داده FLORES-200 متا به مترجمان حرفه‌ای متکی بود. ابتکارات صوتی کشاورزی مایکروسافت شامل هزاران ویدیوی حاشیه‌نویسی شده است.

کیفیت مهم است. صداهای مصنوعی باید طبیعی به نظر برسند. سیستم‌های تشخیص باید تغییر کد را مدیریت کنند. گفتار شهری اغلب انگلیسی، زبان‌های محلی و زبان عامیانه را در یک جمله ترکیب می‌کند.

هوش مصنوعی آفریقایی نمی‌تواند صرفاً از طریق اتوماسیون ساخته شود؛ به تخصص فرهنگی و زبان‌شناختی نیاز دارد.

برای دیاک، موفقیت صرفاً با یکپارچه‌سازی محصول سنجیده نمی‌شود.

"من می‌خواهم شرکت‌های نوآفرینی را ببینم که از مجموعه داده برای ارائه خدمات به زبان‌های محلی استفاده می‌کنند،" او گفت. "می‌خواهم محققانی را ببینم که بر اساس زبان‌های ما مقالات می‌نویسند، نه فقط انگلیسی."

در نهایت، با این حال، دری که گوگل می‌سازد باید به جایی ملموس منتهی شود. این شامل محصولات گوگل است؛ جستجو، Gemini، دستیارهای صوتی، که به طور روان به یوروبا، ولوف، هائوسا یا لوگاندا تعامل می‌کنند. اما همچنین شامل شرکت‌های نوآفرین مستقل است که ابزارهای فین‌تک، چت‌بات‌های بهداشتی یا سیستم‌های مشاوره کشاورزی می‌سازند.

در هر صورت، آینده هوش مصنوعی آفریقا به این بستگی دارد که آیا صدا یک نیروی برابرسازی می‌شود یا یک فرصت از دست رفته دیگر. اگر گفتار توسط سیستم‌های جهانی شناسایی نشود، میلیاردها کلمه‌ای که روزانه در سراسر قاره گفته می‌شود، به صورت دیجیتال نامرئی باقی خواهند ماند.

در 1 دقیقه، 20 USDT دریافت کنید

با واریز 100$، از 300 دلار پوزیشن GOLDبهره متد شوید

سلب مسئولیت: مطالب بازنشرشده در این وب‌ سایت از منابع عمومی گردآوری شده‌ اند و صرفاً به‌ منظور اطلاع‌ رسانی ارائه می‌ شوند. این مطالب لزوماً بازتاب‌ دهنده دیدگاه‌ ها یا مواضع MEXC نیستند. کلیه حقوق مادی و معنوی آثار متعلق به نویسندگان اصلی است. در صورت مشاهده هرگونه محتوای ناقض حقوق اشخاص ثالث، لطفاً از طریق آدرس ایمیل crypto.news@mexc.com با ما تماس بگیرید تا مورد بررسی و حذف قرار گیرد.MEXC هیچ‌ گونه تضمینی نسبت به دقت، جامعیت یا به‌ روزبودن اطلاعات ارائه‌ شده ندارد و مسئولیتی در قبال هرگونه اقدام یا تصمیم‌ گیری مبتنی بر این اطلاعات نمی‌ پذیرد. همچنین، محتوای منتشرشده نباید به‌عنوان توصیه مالی، حقوقی یا حرفه‌ ای تلقی شود و به منزله پیشنهاد یا تأیید رسمی از سوی MEXC نیست.