جي42 تطلق جيس 70B و20 نموذجًا آخر للذكاء الاصطناعي لدعم معالجة اللغة الطبيعية العربية
أطلقت اليوم شركة إنسبشن، إحدى شركات جي42، والمتخصصة في تطوير نماذج وتطبيقات الذكاء الاصطناعي المتقدمة وتوفيرها كخدمة، أحدث نموذج لغة كبير “جيس 70B”.
تم تصميم نموذج “جيس 70B”، الذي يحتوي على 70 مليار بارامتر، لمطوري حلول معالجة اللغة الطبيعية القائمة على اللغة العربية، ويعد بتسريع تكامل خدمات الذكاء الاصطناعي التوليدي عبر مختلف القطاعات، مما يعزّز القدرات في مجالات مثل خدمة العملاء وإنشاء المحتوى وتحليل البيانات.
ويقدم “جيس 70B” قدرات ثنائية اللغة باللغتين العربية والإنجليزية بحجم ونطاق غير مسبوقين لمجتمع المصدر المفتوح. وكونه نموذجًا يتكون من 70 مليار بارامتر، فإنه يمتلك قدرة متزايدة على معالجة المهام المعقدة والدقيقة، فضلاً عن قدرة أفضل على معالجة مجموعات البيانات المعقدة. وتم تطوير “جيس 70B” باستخدام التدريب المستمر، وهي عملية ضبط دقيق لنموذج تم تدريبه مسبقًا، على 370 مليار وحدة لغوية ، منها 330 مليار وحدة لغوية باللغة العربية، وهي أكبر مجموعة بيانات عربية تم استخدامها على الإطلاق لتدريب نموذج أساسي مفتوح المصدر.
وضمن هذا الإعلان ، كشفت الشركة أيضًا عن مجموعة شاملة من نماذج “جيس” الأساسية والمدربة بدقة ؛ تضم 20 نموذجًا، عبر 8 أحجام، تتراوح من 590 مليون إلى 70 مليار بارامتر، والمدربة بدقة خصيصاً لتطبيقات الدردشة، حيث تم تدريب هذه النماذج على ما يصل إلى 1.6 تريليون وحدة لغوية بالعربية والإنجليزية وبيانات البرمجة. واستجابةً لملاحظات مجتمع معالجة اللغة الطبيعية العربية، يقدم هذا الإصدار الواسع الآن مجموعة من النماذج، بما في ذلك أول نموذج مخصص للغة العربية صغير بما يكفي ليعمل على الحاسوب المحمول، مما يوفر نماذج صغيرة وفعّالة من حيث الحوسبة للتطبيقات المستهدفة، وأحجام نماذج متقدمة لتلبية المتطلبات الصارمة للمؤسسات.
وتستوعب هذه المجموعة من نماذج “جيس” عددًا واسعًا من الاستخدمات، وتهدف إلى تسريع فرص الابتكار والتطوير والبحث للعديد من التطبيقات المستقبلية للمجتمع العربي الناطق باللغة العربية وثنائي اللغة.
وحول هذا الإطلاق قال الدكتور أندرو جاكسون، الرئيس التنفيذي لشركة إنسبشن: “اليوم، أصبح الذكاء الاصطناعي قوة مُضافة للِقيمة، وكانت نماذج اللغة الكبيرة في طليعة ارتفاع تبني الذكاء الاصطناعي. تم إنشاء “جيس” للحفاظ على التراث والثقافة واللغة العربية، ولجعل الوصول إلى الذكاء الاصطناعي متاحًا للجميع.”
وأضاف: “إن إصدار جيس 70B وهذه العائلة الجديدة من النماذج يعزز التزامنا بتقديم نموذج أساسي للذكاء الاصطناعي عالي الجودة للدول العربية. كما أنّ تقنيات التدريب والتكيف التي نقدمها بنجاح لنماذج اللغة العربية قابلة للتوسع لتشمل لغات أخرى غير مخدومة بشكل كافٍ، ونحن متحمسون لنقل هذه الخبرة إلى دول أخرى.”
وكانت إنسبشن قد أصدرت “جيس 13B “و “دردشة جيس 13B ” في أغسطس العام الماضي، وأطلقت لاحقًا نماذج تركّز على اللغة العربية ذات جودة عالية، وهي”جيس 30B ” و “دردشة جيس 30B ” اللذان أثبتان أنهما أكثر أداءً في بيانات التقييم لكل من الإنجليزية والعربية مقارنة بالنماذج السابقة.
من جهتها قالت نيها سينغوبتا، عالمة تطبيبقية رئيسية في شركة إنسيبشن: “بالنسبة للنماذج التي تصل إلى 30 مليار بارامتر، فقد نجحنا في تدريب جيس من الصفر متفوقين باستمرار على النماذج المعدلة في المجتمع. ومع ذلك، فبالنسبة للنماذج التي تحتوي على 70 مليار بارامتر وما فوق، كانت تعقيدات الحوسبة والأثر البيئي لتدريبها من الصفر كبيرة. لذلك اخترنا بناء جيس 70B على نموذج “لاما2″ ، مما يسمح لنا بالاستفادة من قاعدة المعرفة الواسعة لنموذج إنجليزي موجود وتطوير حل أكثر كفاءة واستدامة.”
يحتفظ “جيس 70B”بقدرات معالجة اللغة الإنجليزية عالية الجودة التي يتمتع بها “لاما2″، وفي حالات محددة، يتفوق عليها، مع التفوق بشكل كبير في المخرجات العربية مقارنة بالنموذج الأساسي. قام فريق تطوير جيس بتدريب أداة تقسيم موسعة تعتمد على أداة تقسيم “لاما2” لتعزيز كفاءة معالجة النصوص العربية، مما أدى إلى مضاعفة المفردات الأساسية للنموذج. ووفقًا لسينغوبتا ، فإن النموذج “يقسم الكلمات العربية بشكل أقل حدة ويجعل التدريب والاستنتاج أقلّ تكلفة من نموذج “لاما2″ القياسي.”
ويمكن للمستخدمين تحميل نماذج جيس والوصول إلى الورقة البحثية وبيانات التقييم من خلال زيارة الصفحة المخصصة على Hugging Face: