ت تقنية

نموذج جديد لاستنساخ الصوت مفتوح المصدر من Myshell openVoice

sahar Issi يناير 14, 2024

نموذج جديد لاستنساخ الصوت مفتوح المصدر منMyshell openVoice يصل الى الساحة.

شركات ناشئة متعددة بما فيها ElevenLabs التي تكتسب شهرة متزايدة جمعت ملايين الدولارات لتطوير خوارزميات و برمجيات الذكاء الاصطناعي المتخصصة في استنساخ الصوت ، هذه البرمجيات قادة على محاكاة أصوات المستخدمين بشكل دقيق.

 

نموذج جديد لاستنساخ الصوت

 

في هذا السياق ظهر حل جديد يعرف ب openVoice تم تطويره بالتعاون مع معهد ماساتشوستس للتكنولوجيا وجامعة تسينغهوا في بكين الى جانب اعضاء من شركة Myshell الكندية الناشئة في مجال الذكاء الاصطناعي يوفر openVoice امكانية استنساخ الصوت مفتوح المصدر ويتميز بسرعة استجابته و قدرته على توفير تحكم دقيق و لم يكن متاحاً في منصات أخرى.

شركة Myshell ذكرت في منشور على حسابها الرسمي على منصة X قائلة نحن نوفر استنساخاً دقيقاً للأصوات بجودة لا مثيل لها متضمناً التحكم الكامل في النغمة من العواطف الى اللهجة و الايقاع و التوقفات و التنغيم و ذلك باستخدام مقطع صوتي صغير.

شركة Myshell بالتعاون مع معهد ماساتشوستس للتكنولوجيا وجامعة تسينغهوا في بكين قامت بإطلاق openVoice وهو حل جديد لاستنساخ الصوت مفتوح المصدر، الشركة ذكرت ايضاً انها قدمت رابطاً لورقة بحثية تشرح تطوير openVoice واتاحت روابط لتجربة البرنامج في عدة مواقع منها واجهة تطبيق الويب Myshell التي تتطلب تسجيل الدخول للوصول وعلى منصة HuggingFace التي تتيح الوصول بدون حساب.

 

نموذج جديد لاستنساخ الصوتنم

 

في حدث Venturebeat لتأثير الذكاء الاصطناعي،تم الإعلان من دعوة للمشاركة في مخطط حوكمة الذكاء الاصطناعي في العاشر من يناير.

من جانبه أفاد Zengyi qin أحد الباحثين الرئيسين في MIT و Myshell عبر البريد الالكتروني ل VentureBeat بأن Myshell تسعى لإفادة مجتمع البحث بأكمله.

أوضح ان openVoice هو البداية وانه يخططون لتقديم المنح و مجموعات البيانات و القدرات الحاسوبية لدى مجتمع البحوث مفتوح المصدر في المستقبل، وشدد على ان الرؤية الأساسية ل Myshell هي الذكاء الاصطناعي للجميع.

بالنسبة لأسباب تركيز MyShell على نموذج الذكاء الاصطناعي لاستنساخ الصوت مفتوح المصدر، ذكر Qin أن اللغة والرؤية والصوت هي الأسس الثلاثة للذكاء الاصطناعي العام المستقبلي (AGI). وأكد أنه رغم وجود نماذج مفتوحة المصدر جيدة في مجالي اللغة والرؤية، إلا أن هناك نقصًا في نموذج جيد لاستنساخ الصوت، خاصةً لنموذج استنساخ صوت فوري قوي يسمح بتخصيص الصوت الناتج، وهذا ما دفعهم للعمل في هذا المجال.

 

نموذج استنساخ الصوت من قبل الذكاء الاصطناعي

 

نموذج تقنية openVoice واستخدامه:

عند استخدام OpenVoice، وهي تقنية استنساخ الصوت الجديدة المتاحة على منصة HuggingFace، يمكن للمستخدمين بشكل عام إنشاء نسخ صوتية مقنعة بسرعة وسهولة. هذه النسخ، على الرغم من أنها قد تبدو آلية إلى حد ما، تنشأ في غضون ثوانٍ فقط باستخدام كلام عشوائي.

ما يميز OpenVoice عن تطبيقات استنساخ الصوت الأخرى هو عدم الحاجة إلى قراءة نص محدد لتحليل الصوت. يمكن للمستخدمين ببساطة التحدث بشكل طبيعي لبضع ثوانٍ، وسيقوم النظام بإنشاء نسخة صوتية يمكن تشغيلها على الفور واستخدامها لقراءة النص المقدم.

يتيح OpenVoice أيضًا للمستخدمين تعديل “الأسلوب” من خلال مجموعة متنوعة من الإعدادات، مثل البهجة، الحزن، الود، والغضب، باستخدام قائمة منسدلة. هذا يتيح سماع تغيير واضح في نغمة الصوت لتتناسب مع هذه المشاعر المختلفة.

من وراء OpenVoice؟

شركة MyShell، المؤسسة في عام 2023 في كالجاري، ألبرتا، كندا، أثارت الانتباه بعد جولة تمويل أولية بلغت قيمتها 5.6 مليون دولار، بقيادة INCE Capital ومع مشاركة من Folius Ventures، Hashkey Capital، SevenX Ventures، TSVC، وOP Crypto. بحسب ما ورد في ساس نيوز، فإن الشركة تمتلك الآن قاعدة مستخدمين تتجاوز 400,000 مستخدم. وقد لوحظ وجود أكثر من 61,000 مستخدم على خادم Discord الخاص بالشركة خلال الفترة التي سبقت كتابة هذه المقالة.

تعرف الشركة نفسها بأنها “منصة شاملة ولامركزية لاكتشاف، إنشاء، وتطبيقات الذكاء الاصطناعي.”

بالإضافة إلى تقديم OpenVoice، يشمل تطبيق الويب الخاص بالشركة مجموعة متنوعة من شخصيات الذكاء الاصطناعي المستندة إلى النصوص والروبوتات ذات “شخصيات” متنوعة، تشبه إلى حد ما Character.AI، بما في ذلك بعض الشخصيات الخاصة بالبالغين (NSFW). يحتوي التطبيق أيضًا على أداة لصنع الصور المتحركة GIF وألعاب تقمص الأدوار النصية التي يصنعها المستخدمون، بعضها يضم عناصر من امتيازات معروفة محمية بحقوق الطبع والنشر مثل Harry Potter وMarvel.

شارك هذه المقالة

تم النسخ

https://alaanplus.com/نموذج-جديد-لاستنساخ-الصوت-مفتوح-المصد

انسخ الرابط

SI Sahar Issi

اقرأ ايضا