VALL-E هو شبيه ChatGPT لتقليد الأصوات في ثلاث ثوان
هل سمعتم عن VALL-E ؟! لا تزال خطة Microsoft لتنفيذ ChatGPT ضمن حلولها الأساسية جارية. سيصل إلى Bing في الربع الأول من هذا العام ، وهناك بالفعل معلومات حول التطبيقات القادمة داخل مجموعة Office. لكن ChatGPT ليست وحدها ، مايكروسوفت لديها الآس الجديد في جعبتها.
اسمه VALL-E
وهو نموذج لغوي لتوليف النص إلى كلام (TTS). تعد Microsoft بأنها تحتاج فقط إلى ثلاث ثوان من التسجيل الصوتي حتى يتمكن النظام من تقليد صوته.
VALL-E هو ما تسميه Microsoft “نموذج لغة الترميز العصبي”. إنه مشتق من ترميز الشبكة العصبية للضغط المدعوم بالذكاء الاصطناعي من Meta ، مما يولد الصوت من إدخال النص وعينات قصيرة من السماعة المستهدفة.
مايكروسوفت تريد الذكاء الاصطناعي في كل شيء
لدى Microsoft نموذج جديد لتحويل النص إلى كلام قادر على محاكاة أي صوت بتسجيل مدته ثلاث ثوان فقط. واحدة من أكثر النقاط إثارة للاهتمام التي تشاركها الشركة في وثائقها هي أنها تقوم بتطوير VALL-E للعمل مع نماذج الذكاء الاصطناعي التوليدية الأخرى ، مثل GPT-3.
بمعنى آخر ، سيكون ChatGPT نفسه قادرا على تقديم نتائج صوتية لنا بمجرد دمج هذا النموذج. سيكون من الممكن “تقليد صوت صبي صغير على الطريق” ، طالما تم إجراء التدريب السابق اللازم.
الأمثلة التي تعرضها Microsoft هي ببساطة مذهلة. في نفوسهم ، يوضح لنا ما هو الإدخال الصوتي الذي تم اتخاذه كأساس ، والخطوات الوسيطة والنتيجة النهائية ل VALL-E. النموذج ليس فقط قادرا على تقليد الصوت ، ولكن الإيقاع الأصلي للغة نفسها والنغمة الأصلية التي تم بها تسجيل إدخال الصوت.
هذا ليس شيئا جديدا بشكل خاص
وهو أن Google تفاخرت بالفعل بنماذج مماثلة منذ سنوات. ومع ذلك ، فإن تطبيقات أقوى أنظمة الذكاء الاصطناعي من Google في الحلول الشائعة ليست موجودة مثل خطط Microsoft. سيكون لدينا ذكاء اصطناعي في المتصفح ، وفي تطبيقات المكتب ، وكما هو مفصل الآن ، سيكون هذا الذكاء الاصطناعي صوتيا أيضا.
في ورقة بحثية ، وصف الباحثون كيف قاموا بتدريب VALL-E على 60.000 ساعة من الكلام باللغة الإنجليزية من أكثر من 7000 متحدث في مكتبة Meta الصوتية LibriLight . يجب أن يكون الصوت الذي تحاول تقليده مطابقًا تمامًا للصوت الموجود في بيانات التدريب. إذا كان الأمر كذلك ، فإنه يستخدم بيانات التدريب لاستنتاج ما سيبدو عليه المتحدث المستهدف إذا كان يتحدث بإدخال النص المطلوب.