أداة جديدة لاستنساخ الصوت بالذكاء الاصطناعي من «OpenAI»
أعلنت شركة OpenAI عن أداة جديدة لاستنساخ الصوت تعتمد على الذكاء الاصطناعي تسمى Voice Engine، في حين أن الشركة تروج لكيفية استخدامها لتوفير المساعدة في القراءة للأطفال وإعطاء صوت لأولئك الذين فقدوا صوتهم فمن الواضح أن OpenAI متوترة للغاية بشأن كيفية إساءة استخدام ذلك.
شركة OpenAI تعلن عن ميزة جديدة لاستنساخ الصوت
وقالت الشركة في بيان يوم الجمعة: «تلتزم OpenAI بتطوير ذكاء اصطناعي آمن ومفيد على نطاق واسع»، موضحة مخاوفها في الجملة الأولى.
يستخدم Voice Engine بشكل أساسي نفس التقنية التي تقف وراء واجهة برمجة تطبيقات تحويل النص إلى كلام وChatGPT Voice، لكن هذا التطبيق للتكنولوجيا يدور حول استنساخ الصوت بدلاً من قراءة شيء بصوت عالٍ بنبرة شخص غريب ونبرة صوته. وتشير شركة OpenAI إلى أن تقنيتها استثنائية من حيث أنها تحتاج فقط إلى عينة مدتها 15 ثانية «لإنشاء أصوات عاطفية وواقعية".
«اليوم نشارك الأفكار والنتائج الأولية من معاينة صغيرة النطاق لنموذج يسمى Voice Engine، والذي يستخدم إدخال النص وعينة صوتية واحدة مدتها 15 ثانية لإنشاء خطاب يبدو طبيعيًا يشبه إلى حد كبير المتحدث الأصلي». الشركة كتب.
الهدف من استخدام استنساخ الصوت
ليس من الواضح ما هو نوع بيانات التدريب التي تم استخدامها لبناء Voice Engine، وهو نقطة حساسة لشركات الذكاء الاصطناعي التي اتُهمت بانتهاك قوانين حقوق الطبع والنشر من خلال تدريب نماذجها على الأعمال المحمية. تقول شركات مثل OpenAI إن أساليب التدريب الخاصة بها تعتبر استخدامًا عادلاً بموجب قانون حقوق الطبع والنشر الأمريكي، لكن عددًا من أصحاب الحقوق رفعوا دعوى قضائية، واشتكوا من عدم حصولهم على تعويض مقابل عملهم.
يحتوي موقع OpenAI الإلكتروني على أمثلة لمقاطع صوتية تم تغذيتها من خلال Voice Engine وهي رائعة جدًا. القدرة على تغيير اللغة التي يتحدث بها شخص ما هي أيضًا رائعة جدًا. لكن لا يمكنك تجربتها بنفسك حتى الآن.
أشهر أدوات استنساخ للصوت
يوجد بالفعل عدد من أدوات استنساخ الصوت المتاحة مثل ElevenLabs والمترجمين مثل Respeecher. لكن OpenAI أصبحت عملاقًا منذ أن أطلقت ChatGPT علنًا لأول مرة في أواخر عام 2022. وبمجرد أن تجعل Voice Engine منتجًا متاحًا للجمهور (لا توجد معلومات عن تاريخ إصداره حتى الآن)، فقد يفتح الباب على مصراعيه لجميع أنواع الانتهاكات الجديدة. لم نحلم به قط.
وأشار بيان OpenAI يوم الجمعة إلى «أننا نتبع نهجًا حذرًا ومستنيرًا تجاه إصدار أوسع بسبب احتمالية إساءة استخدام الصوت الاصطناعي»، مشددًا على المخاوف التي تواجهها كل شركة كبرى الآن مع هذا النوع من تقنيات الذكاء الاصطناعي.
أحد الأمثلة المثيرة للقلق بشكل خاص لشخص يستخدم استنساخ الصوت بالذكاء الاصطناعي لأغراض شائنة حدث في وقت سابق من هذا العام باستخدام صوت الرئيس جو بايدن. قام ستيف كرامر، الذي عمل مع المرشح الرئاسي الديمقراطي دين فيليبس، باستنساخ صوت بايدن لإنشاء رسالة مفادها أنه لا ينبغي للناس أن يكلفوا أنفسهم عناء التصويت في الانتخابات التمهيدية في نيو هامبشاير. استخدم كرامر أداة الصوت ElevenLabs AI الصوتية وقام بذلك في "أقل من 30 دقيقة"، حيث أرسل رسالة robocall إلى حوالي 5000 شخص، وفقًا لصحيفة واشنطن بوست.
بيان الشركة عن أهمية استنساخ الصوت
وجاء في بيان OpenAI: «نأمل أن نبدأ حوارًا حول النشر المسؤول للأصوات الاصطناعية، وكيف يمكن للمجتمع أن يتكيف مع هذه القدرات الجديدة».
وأكمل البيان: «استنادًا إلى هذه المحادثات ونتائج هذه الاختبارات صغيرة النطاق، سنتخذ قرارًا أكثر استنارة حول ما إذا كان سيتم نشر هذه التكنولوجيا على نطاق واسع وكيفية ذلك».