يمكن لأحدث تقنيات الذكاء الاصطناعي من “Facebook” تعلم الكلام بدون نسخة بشرية
يُعد التعرف على الكلام ترسًا مهمًا في آلات الذكاء الاصطناعي لشركات التكنولوجيا ، والتي يعمل الكثير منها على تشغيل المساعدين الرقميين على هواتفنا وسياراتنا ومكبرات الصوت الذكية في منازلنا. ولكن على الرغم من انتشارها في كل مكان ، إلا أن التعرف على الكلام لا يزال قيد التقدم.
ومع ذلك ، اتخذ Facebook مؤخرًا خطوة كبيرة إلى الأمام في الطريقة التي يدرب بها هذه الأنظمة على تعلم لغات جديدة ، حيث تقول الشركة إنها طورت طريقة لبناء أدوات التعرف على الكلام التي لا تتطلب إدخال بيانات.
وفقًا لـ Facebook ، يمكن لنظامه الجديد تحرير التكنولوجيا من الاعتماد على إدخال تحويل النص إلى كلام ، وهي مهمة تستغرق وقتًا طويلاً تتضمن الاستماع إلى ساعات من الصوت وتدوينها ، وهي عملية شاقة يجب تكرارها لكل لغة ، ونظام Facebook. هو “غير متوافق”. للإشراف “يتعلم فقط من الكلام والنص المنفصلين ، مما يمنحه فهمًا أفضل لما يبدو عليه الاتصال البشري.
يعتمد نموذج Facebook بشكل أساسي على حلقة التغذية الراجعة بين شبكة الخصومة التوليدية (GAN) التي تتكون من “منشئ” و “أداة تمييز” ، مع تمثيلات بث التحميل السابقة لأنماط الكلام التي تبدو دقيقة تمامًا قبل نقلها إلى شبكة التمييز المقابلة إنه هراء ، العمل كمترجم من نوع ما.
وفي الوقت نفسه ، يقوم Facebook بإدخال نصوص بشرية إضافية لمساعدة المبدعين على التمييز بين النتائج المحوسبة والنتائج الواقعية. تتكرر هذه العملية حتى يتطابق إخراج المولد مع النص الحقيقي.
يقول Facebook إن طريقته تسمح له بإنشاء أنظمة التعرف على الكلام دون أي مجموعات بيانات مشروحة. اختبرت الشركة بالفعل النموذج – المسمى Wav2vec-U (U تعني غير خاضع للإشراف) – في قيرغيزستان السواحيلية (المستخدمة في آسيا الوسطى وجمهورية قيرغيزستان) وتتار القرم. يفتقرون جميعًا إلى أدوات التعرف على الكلام عالية الجودة بسبب الاختلافات في بيانات التدريب.
أظهرت اختبارات Facebook أن النظام أدى إلى أخطاء أقل بنسبة 63٪ من طريقة Next Best غير الخاضعة للرقابة ، مضيفة أن الأداة كانت دقيقة مثل نظام خاضع للإشراف منذ بضع سنوات وتم تطويرها لتسريع تطويرها.