الأخبار

VASA-1: تقنية جديدة من مايكروسوفت تحول الصور إلى وجوه ناطقة

كشفت شركة مايكروسوفت ريسيرش آسيا عن أداة ذكاء اصطناعي تجريبية جديدة تحمل اسم «VASA-1»، قادرة على تحويل صورة ثابتة لشخص، أو رسم له، إلى وجه ناطق حيوي بصورة واقعية وذلك بالاقتران مع ملف صوتي موجود.

تمتاز هذه التقنية بقدرتها على إنتاج تعابير الوجه وحركات الرأس بشكل متناسق مع الحركات الشفهية التي تتطابق مع الكلام أو الأغاني في الوقت الفعلي.

على الرغم من أن الحركات الشفهية والرأسية في النماذج المقدمة قد تبدو آلية بعض الشيء وغير متزامنة بشكل دقيق، إلا أنه من الواضح أن هذه التقنية قد تُستخدم بطرق غير ملائمة، كإنشاء مقاطع فيديو التزييف العميق (DeepFake) لأشخاص حقيقيين بسرعة وسهولة.

تدرك الفرق البحثية هذا الاحتمال وقررت عدم إطلاق «نموذج تجريبي عبر الإنترنت أو واجهة برمجة التطبيقات أو أي منتجات أو تفاصيل تنفيذ إضافية أو أي عروض ذات صلة» حتى يتأكدوا من أن تقنيتهم «سوف تُستخدم بمسؤولية ووفقًا للتنظيمات الصحيحة».

رغم هذه المخاوف، يعتقد الباحثون أن تقنية «VASA-1» تقدم فوائد عديدة، حيث أشاروا إلى إمكانية استخدامها في تحسين التكافؤ التعليمي وزيادة إمكانية الوصول للأشخاص الذين يواجهون تحديات في التواصل، من خلال توفير أفاتار يمكنه التواصل نيابة عنهم. كما يمكن أن توفر الرفقة والدعم العلاجي للأشخاص الذين يحتاجون إليها.

ذو صلة | تقنية التزييف العميق تُستخدم في عملية احتيال ضخمة في هونغ كونغ

تم تدريب الأداة على مجموعة بيانات VoxCeleb2، التي تحتوي على أكثر من مليون كلمة منطوقة لـ 6,112 من المشاهير تم استخراجها من مقاطع فيديو على يوتيوب، وتعمل الأداة أيضًا على الصور الفنية مثل صورة الموناليزا، التي جُمعت بطريقة فكاهية مع ملف صوتي للممثلة آن هاثاواي وهي تؤدي أغنية «باباراتزي» في مقطع مثير يستحق المشاهدة!

المصدر

زر الذهاب إلى الأعلى