تقنيات جوجل تتفوق على الخبراء في تدقيق حقائق النماذج اللغوية الكبيرة
كشفت دراسة جديدة أجراها فريق بحثي من شركة DeepMind التابعة لشركة جوجل، عن تفوق نظام الذكاء الاصطناعي على المدققين البشريين في تقييم دقة المعلومات التي تُنتجها النماذج اللغوية الكبيرة.
وقدمت الورقة البحثية، التي حملت عنوان “الحقيقة في نماذج اللغة الكبيرة”، طريقة جديدة تُسمى “مدقق الحقائق المُعزز بالبحث” لتقييم صحة المعلومات بشكل آلي. حيث يقوم هذا النظام بتجزئة النص المُنتج إلى حقائق فردية، ثم استخدام نتائج البحث في جوجل لتحديد دقة كل ادعاء.
وأظهرت النتائج أن تقييم النظام الآلي تطابق مع تقييمات المدققين البشريين بنسبة 72%، ولكن في حالات الخلاف بينهما، ثبتت صحة تقييم الذكاء الاصطناعي في 76% من الأحيان، وهو ما وصفه الباحثون بـ “الأداء الخارق”.
غير أن بعض الخبراء يشككون في مفهوم “الأداء الخارق” هنا، إذ يرى البعض أنه قد يُشير فقط إلى التفوّق على الموظفين منخفضي الأجر، وليس بالضرورة أفضل من خبراء التدقيق البشريين.
ومع ذلك، فإن أحد مزايا النظام الآلي تتمثل في انخفاض تكلفته، إذ وجد الباحثون أن استخدامه كان أرخص بنحو 20 مرة من تكلفة التحقق البشري. ومع ازدياد حجم المعلومات التي تُنتجها النماذج اللغوية، ستصبح القدرة على التدقيق منخفض التكلفة أمرًا بالغ الأهمية.
استخدم فريق DeepMind نظامهم لتقييم دقة حقائق 13 من أبرز النماذج اللغوية الكبيرة عبر 4 أنظمة (جيميني و جي بي تي و كلود و بالم-2) على مقياس جديد أُطلق عليه اسم “LongFact”. وأشارت النتائج إلى أن النماذج الأكبر حجمًا أنتجت عددًا أقل من الأخطاء.
ولكن، حتى أفضل النماذج أداءً لا تزال تُنتج عددًا كبيرًا من المزاعم الخاطئة، مما يُبرز مخاطر الاعتماد المفرط على نماذج الذكاء الاصطناعي القادرة على التعبير بطلاقة عن معلومات غير دقيقة.
وقد تلعب أدوات التحقق الآلي مثل “مدقق الحقائق المُعزز بالبحث”، دورًا رئيسيًا في التخفيف من هذه المخاطر. ومع ذلك، لا تزال هناك حاجة إلى المزيد من الشفافية حول المعايير البشرية المستخدمة في هذه الدراسة.
وبينما تتسابق الشركات التقنية العملاقة لتطوير نماذج لغة أكثر قوة للاستخدامات التي تتراوح بين البحث والمساعدين الافتراضيين، فإن القدرة على التحقق الآلي من الحقائق من مخرجات هذه الأنظمة ستكون عاملًا حاسمًا. وتُمثل أدوات مثل “مدقق الحقائق المُعزز بالبحث” خطوة مهمة نحو بناء طبقة جديدة من الثقة والمسؤولية.