شركات التقنية الكبرى استخدمت محتوى يوتيوب في تدريب الذكاء الاصطناعي دون إذن
كشف تحقيق حديث عن استخدام شركات تقنية كبرى لبيانات مأخوذة من محتوى على منصة يوتيوب دون إذن أصحاب هذا المحتوى، لتدريب أنظمة الذكاء الاصطناعي الخاصة بها.
وتضمنت قائمة الشركات أسماء بارزة مثل Apple و Anthropic و Nvidia و Salesforce.
وأشار التقرير إلى أن مجموعة البيانات المستخدمة، والتي أطلق عليها اسم “الترجمات النصية ليوتيوب”، تحتوي على نصوص مأخوذة من أكثر من 170 ألف فيديو تابعة لحوالي 48 ألف قناة على المنصة.
وشملت هذه البيانات محتوى لصناع محتوى مشهورين مثل مستر بيست وماركوس براونلي، بالإضافة إلى مقاطع من وسائل إعلامية كبرى مثل إيه بي سي نيوز وبي بي سي ونيويورك تايمز.
أثار هذا الكشف جدلًا واسعًا حول أخلاقيات استخدام المحتوى الرقمي في تدريب أنظمة الذكاء الاصطناعي دون موافقة أصحابه. وعلق براونلي على الأمر قائلاً: “ستظل هذه مشكلة متطورة لفترة طويلة”.
الجدير بالذكر أن مجموعة البيانات هذه تعد جزءًا من مجموعة أكبر تسمى “The Pile”، والتي تضم أيضًا بيانات من كُتب ومقالات ويكيبيديا وغيرها. وقد سبق أن أثارت هذه المجموعة قضايا قانونية، حيث رفع بعض المؤلفين دعاوى ضد الشركات التي استخدمت أعمالهم لتدريب الذكاء الاصطناعي.
وفي سياق متصل، أكّد الرئيس التنفيذي لشركة يوتيوب “نيل موهان” أن استخدام محتوى الفيديو لتدريب الذكاء الاصطناعي – بما في ذلك النصوص المكتوبة – يعد انتهاكاً لشروط الاستخدام الخاصة بالمنصة.
كما أيّد سوندار بيتشاي، الرئيس التنفيذي لشركة جوجل، هذا الموقف في مقابلة سابقة.
يُذكر أن شركات الذكاء الاصطناعي نادرًا ما تكشف عن مصادر البيانات التي تستخدمها في تدريب أنظمتها، مما يثير تساؤلات حول الشفافية والممارسات الأخلاقية في هذا المجال.