علوم وتكنولوجيا

ميتا تطلق أول نظام ترجمة للخطاب الشفهي مدعوم من الذكاء الاصطناعي للغة غير مكتوبة

الخميس, 20 أكتوبر, 2022 - 11:19 ص

أفراد من خدمة الطوارئ الحكومية الأوكرانية يسيرون باتجاه علبة صاروخ عالقة على الرصيف بعد قصف أخير في خاركيف

دينا مصطفى

ركزت ترجمة الذكاء الاصطناعي على اللغات المكتوبة حتى الآن، ومع ذلك، من بين أكثر من 7، 000 لغة حية، فإن أكثر من 40٪ من اللغات تعد لغات شفهية ومنطوقة في المقام الأول، وليس لديها نظام قياسي أو معروف على نطاق واسع للكتابة ويركز مشروع مترجم الخطاب الشفهي العالمي (UST) من ميتا على تطوير أنظمة ذكاء اصطناعي توفر ترجمة من-الخطاب-إلى-الخطاب (speech-to-speech) الفورية عبر جميع اللغات، حتى اللغات المنطوقة بشكل أساسي.

وتعد القدرة على التحدث إلى البشر بلغات مختلفة دون الحاجة لقضاء سنوات من الدراسة هو حلم طال انتظاره ويمكن أن تساعد الاتصالات المنطوقة في كسر الحواجز وجمع البشر معًا أينما كانوا - حتى في الميتافيرس.

وقال ميتا في بيان لها: لقد اتخذنا خطوة أخرى نحو هذا الهدف مع UST، وهو أول نظام ترجمة من الخطاب-إلى-الخطاب مدعوم بالذكاء الاصطناعي تم تطويره للغة غير مكتوبة.

ووأضاف ميتا، كما ذكرنا في فعالية Meta Connect هذا الشهر، قام باحثونا بالذكاء الاصطناعي ببناء أنظمة ترجمة مفتوحة المصدر للغة الهوكين، وهي واحدة من اللغات الرسمية في تايوان ويتم التحدث بها على نطاق واسع داخل منطقة الشتات الصيني، ولكنها تفتقر إلى شكل قياسي مكتوب.

وتسمح هذه التقنية للمتحدثين بلغة الهوكين بإجراء محادثات مع الأشخاص الذين يتحدثون الإنجليزية. لتطوير نظام الترجمة الجديد هذا والمخصص للخطاب الشفهي فقط، كان على باحثي الذكاء الاصطناعي في ميتا التغلب على العديد من التحديات في أنظمة الترجمة الآلية التقليدية، بما في ذلك جمع البيانات، تصميم النماذج، والتقييم.

كان جمع البيانات الكافية عقبة كبيرة واجهناها عند الشروع في بناء نظام ترجمة الهوكين.

والهوكين هي ما يعرف باسم لغة ناقصة الموارد، مما يعني أنه لا توجد إمدادات كافية من بيانات التدريب المتاحة بسهولة، مقارنة بالإسبانية أو الإنجليزية على سبيل المثال. بالإضافة إلى ذلك، هناك عدد قليل نسبيًا من المترجمين البشريين من اللغة الإنجليزية إلى الهوكين، مما يجعل من الصعب جمع البيانات وتفسيرها لتدريب النموذج.

وتابعت ميتا، قمنا بالاستفادة من لغة الماندرين كلغة وسيطة لبناء تسميات مستعارة، حيث قمنا أولًا بترجمة الخطاب بالإنجليزية (أو الهوكين) إلى نص بلغة الماندرين، ثم ترجمنا إلى الهوكين (أو الإنجليزية) وأضفناه إلى بيانات التدريب. حسنت هذه الطريقة بشكل كبير من أداء النموذج عبر الاستفادة من البيانات من لغة مماثلة عالية الموارد.

ويعد استخراج الخطاب هو نهج آخر للتدريب على زيادة البيانات، باستخدام برنامج تشفير الخطاب المدرب مسبقًا، يمكننا تشفير تضمينات خطاب الهوكين في نفس المساحة الدلالية مثل تضمين النص الإنجليزي. يمكن موائمة خطاب الهوكين مع النصوص الإنجليزية التي تتشابه تضميناتها الدلالية، وتعمل ميتا على توليف الخطاب الإنجليزي من النصوص، مما يؤدي إلى خطاب متوازي ما بين الهوكين والإنجليزية.

وتعتمد العديد من أنظمة ترجمة الخطاب على النص المكتوب، أو هي بالأساس أنظمة تحويل الخطاب إلى نص، ولكن اللغات غير المكتوبة ليس لها أشكال قياسية مكتوبة. وهذا يعني أن إنتاج نص منسوخ كناتج ترجمة ليس منطقيًا. وبالتالي، نركز على الترجمة من الخطاب إلى الخطاب.

واستطردت ميتا، تطلب مشروعنا نهجًا متنوعًا واستخدمنا ترجمة الخطاب إلى وحدة (S2UT) لتحويل الخطاب المدخل إلى سلسلة من الوحدات الصوتية مباشرة في المسار الذي كانت ميتا قد حققت الريادة به سابقا. ثم أنشأنا أشكالًا موجية من الوحدات. بالإضافة إلى ذلك، تم اعتماد UnitY لمنظومة فك تشفير ثنائية المرور، حيث يقوم جهاز فك تشفير الممر الأول بإنشاء نص بلغة ذات صلة (الماندرين)، ويقوم جهاز فك تشفير الممر الثاني بإنشاء وحدات.

عادةً ما يتم تقييم أنظمة ترجمة الخطاب باستخدام مقياس يسمى ASR-BLEU، والذي يتضمن أولًا نسخ الخطاب المترجم إلى نص باستخدام التعرف التلقائي على الخطاب (ASR)، ثم حساب درجات BLEU (مقياس ترجمة آلية قياسي) من خلال مقارنة النص المنسوخ بنص مترجم من قبل الإنسان. ومع ذلك، فإن أحد تحديات تقييم ترجمات الخطاب للغة غير مكتوبة مثل الهوكين هو أنه لا يوجد نظام كتابة قياسي، من أجل تمكين التقييم التلقائي، قمنا بتطوير نظام ينسخ خطاب الهوكين إلى صوت موحد يسمى Tâi-lô، والذي يُمكِّنا بعد ذلك من حساب درجة BLEU على مستوى المقطع ومقارنة جودة عدة طرق مختلفة من الترجمة بسهولة.

وبالإضافة إلى تطوير طريقة لتقييم ترجمات الخطاب بين الهوكين والإنجليزية، أنشأنا أيضًا أول مجموعة بيانات معيارية للترجمة من الخطاب إلى الخطاب ثنائي الاتجاه من الهوكين إلى الإنجليزية استنادًا إلى مجموعة خطابات الهوكين تسمى التايوانية عبر تايوان. ستكون مجموعة البيانات القياسية هذه مفتوحة المصدر لتشجيع الباحثين الآخرين على العمل على ترجمة خطاب بلغة الهوكين وإحراز المزيد من التقدم في هذا المجال.

وتخطط ميتا لاستخدام نظام ترجمة الهوكين الخاص بنا كجزء من مترجم خطاب عالمي، وستتيح مصادر نموذج وشفرات وبيانات التدريب الخاصة بميتا لمجتمع الذكاء الاصطناعي لتمكين الباحثين الآخرين من تطوير هذا الإنجاز في مرحلته الحالية، يسمح نهجت ميتا لشخص يتحدث بلغة الهوكين بالتحدث مع شخص يتحدث الإنجليزية. في حين أن النموذج لا يزال قيد التطوير ولا يمكنه ترجمة سوى جملة كاملة واحدة في كل مرة، إلا أنه خطوة نحو مستقبل تكون فيه الترجمة الفورية بين اللغات ممكنة.

ويمكن توسيع التقنيات التي ابتكرناها مع لغة الهوكين إلى العديد من اللغات الأخرى غير المكتوبة، والتي ستعمل في النهاية بشكل فوري. وتحقيقًا لهذه الغاية، فإن ميتا بصدد إطلاق مصفوفة الخطاب، وهي عبارة عن مجموعة كبيرة من الترجمات من الخطاب إلى الخطاب تم استخراجها باستخدام تقنية ميتا المبتكرة لاستخراج البيانات المسماة LASER، والتي ستمكِّن الباحثين من إنشاء أنظمة الترجمة من الخطاب إلى الخطاب (S2ST) الخاصة بهم والبناء على عملنا.

ويحول LASER الجمل من لغات مختلفة إلى تمثيل واحد متعدد الوسائط واللغات واستخدمت ميتا بحث التشابه واسع النطاق ومتعدد اللغات لتحديد الجمل المتشابهة في الفضاء الدلالي، أي من المحتمل أن يكون لها نفس المعنى في لغات مختلفة وطبقت LASER لبناء CCMatrix وCCAlign، القادرين على العثور على نصوص متوازية على الإنترنت.

ووسع فريق ميتا مؤخرًا LASER للعمل أيضًا مع الخطاب من خلال إنشاء تمثيلات للخطاب والنص في نفس المساحة متعددة اللغات، يمكننا استخراج الترجمات بين الخطاب بلغة والنص بلغة أخرى - أو حتى الترجمات المباشرة من الخطاب إلى الخطاب. توفر البيانات المستخرجة من Speech Matrix ما مجموعه 418 ألف ساعة من الخطاب المتوازي الذي يغطي 272 اتجاهاُ لغويا. تم استخراج أكثر من 8، 000 ساعة من خطاب الهوكين جنبًا إلى جنب مع الترجمات الإنجليزية المقابلة.

وبالإضافة إلى ذلك، فإن التطورات الأخيرة التي حققتها ميتا في مجال تعريف الخطاب غير الخاضع للإشراف (wav2vec-U) والترجمة الآلية غير الخاضعة للإشراف (mBART) ستفيد العمل المستقبلي في ترجمة المزيد من اللغات المنطوقة. مع هذا التقدم في التعلم غير الخاضع للإشراف، نثبت جدوى بناء نماذج ترجمة عالية الجودة من الخطاب إلى الخطاب دون أي تفسيرات توضيحية بشرية. وهذا يقلل بشكل كبير من متطلبات توسيع نطاق تغطية اللغات منخفضة الموارد، حيث أن العديد منها لا يحتوي على بيانات التسمية على الإطلاق.

ويساعد الذكاء الاصطناعي الأبحاث على كسر الحواجز اللغوية في كل من العالم الحقيقي والميتافيرس. وفي المستقبل، قد لا تشكل جميع اللغات، سواء كانت مكتوبة أو غير مكتوبة، عقبة أمام التفاهم المتبادل وتطلع ميتا إلى المساهمة في مستقبل سهولة التواصل.