VASA-1: تقنية جديدة من مايكروسوفت تحول الصور إلى وجوه ناطقة

فريق التحرير 22 أبريل 2024آخر تحديث: 22 أبريل 2024

دقيقة واحدة

كشفت شركة مايكروسوفت ريسيرش آسيا عن أداة ذكاء اصطناعي تجريبية جديدة تحمل اسم «VASA-1»، قادرة على تحويل صورة ثابتة لشخص، أو رسم له، إلى وجه ناطق حيوي بصورة واقعية وذلك بالاقتران مع ملف صوتي موجود.

تمتاز هذه التقنية بقدرتها على إنتاج تعابير الوجه وحركات الرأس بشكل متناسق مع الحركات الشفهية التي تتطابق مع الكلام أو الأغاني في الوقت الفعلي.

على الرغم من أن الحركات الشفهية والرأسية في النماذج المقدمة قد تبدو آلية بعض الشيء وغير متزامنة بشكل دقيق، إلا أنه من الواضح أن هذه التقنية قد تُستخدم بطرق غير ملائمة، كإنشاء مقاطع فيديو التزييف العميق (DeepFake) لأشخاص حقيقيين بسرعة وسهولة.

تدرك الفرق البحثية هذا الاحتمال وقررت عدم إطلاق «نموذج تجريبي عبر الإنترنت أو واجهة برمجة التطبيقات أو أي منتجات أو تفاصيل تنفيذ إضافية أو أي عروض ذات صلة» حتى يتأكدوا من أن تقنيتهم «سوف تُستخدم بمسؤولية ووفقًا للتنظيمات الصحيحة».

رغم هذه المخاوف، يعتقد الباحثون أن تقنية «VASA-1» تقدم فوائد عديدة، حيث أشاروا إلى إمكانية استخدامها في تحسين التكافؤ التعليمي وزيادة إمكانية الوصول للأشخاص الذين يواجهون تحديات في التواصل، من خلال توفير أفاتار يمكنه التواصل نيابة عنهم. كما يمكن أن توفر الرفقة والدعم العلاجي للأشخاص الذين يحتاجون إليها.

ذو صلة | تقنية التزييف العميق تُستخدم في عملية احتيال ضخمة في هونغ كونغ

تم تدريب الأداة على مجموعة بيانات VoxCeleb2، التي تحتوي على أكثر من مليون كلمة منطوقة لـ 6,112 من المشاهير تم استخراجها من مقاطع فيديو على يوتيوب، وتعمل الأداة أيضًا على الصور الفنية مثل صورة الموناليزا، التي جُمعت بطريقة فكاهية مع ملف صوتي للممثلة آن هاثاواي وهي تؤدي أغنية «باباراتزي» في مقطع مثير يستحق المشاهدة!

المصدر

الوسوم

فريق التحرير 22 أبريل 2024آخر تحديث: 22 أبريل 2024

دقيقة واحدة

VASA-1: تقنية جديدة من مايكروسوفت تحول الصور إلى وجوه ناطقة

مقارنة آبل واتش 10 و آبل واتش 8.. هل حان وقت الترقية؟

ما هي Meta AI؟ وما هي أهم مميزاتها؟

مقارنة تفصيلية بين iPhone 16 Pro Max و Galaxy S24 Ultra

كيفية تحميل وتشغيل Age of Empires على الماك

مقارنة شاملة بين آيفون 16 وسامسونج جالاكسي S24 من حيث المواصفات والتصميم