أطلقت شركة «إنسبشن»، المتخصِّصة في تطوير نماذج وتطبيقات الذكاء الاصطناعي المتقدمة والتابعة لمجموعة «جي42»، الإصدار الأحدث من عائلة جيس لنماذج الذكاء الاصطناعي يتضمَّن النموذج اللغوي الكبير «جيس 70B».
وصُمِّمَ نموذج «جيس 70B»، الذي يضمُّ 70 مليار بارامتر، لمطوِّري حلول معالجة اللغة الطبيعية القائمة على اللغة العربية، ويُسهم في تسريع تكامل خدمات الذكاء الاصطناعي التوليدي في مختلف القطاعات، ما يعزِّز القدرات في مجالات تشمل خدمة العملاء، وصناعة المحتوى، وتحليل البيانات.
ويوفِّر النموذج قدرات باللغتين العربية والإنجليزية بحجم ونطاق غير مسبوقين في مجال النماذج مفتوحة المصدر، ويتكون من 70 مليار بارامتر، حيث يمتلك قدرة متزايدة على معالجة المهام المُعقَّدة والدقيقة، إضافةً إلى تزويده بقدرة أفضل لمعالجة مجموعات البيانات المُعقَّدة. وطُوِّرَ النموذج باستخدام التدريب المستمر، وهي عملية ضبط دقيق لنموذج مُدرَّب مُسبقاً على 370 مليار رمز لغوي، بما في ذلك 330 مليار رمز باللغة العربية، وهي أكبر مجموعة بيانات عربية استُخدمت لتدريب نموذج أساسي مفتوح المصدر.
وكشفت «إنسبشن» أيضاً عن مجموعة شاملة من نماذج «جيس» الأساسية تضمُّ 20 نموذجاً، عبر 8 أحجام، تتراوح من 590 مليون إلى 70 مليار بارامتر، والمُدرَّبة بدقة لتطبيقات الدردشة، حيث دُرِّبت هذه النماذج على ما يصل إلى 1.6 تريليون رمز باللغتين العربية والإنجليزية وبيانات البرمجة. ويقدِّم هذا الإصدار الواسع مجموعة من النماذج، بما في ذلك أول نموذج مُخصَّص للغة العربية يعمل على الحاسوب المحمول، ما يوفِّر نماذج صغيرة وفاعلة من حيث الحوسبة للتطبيقات المُستهدفة، وأحجام نماذج متقدمة لتلبية المتطلبات الصارمة للمؤسسات.
وتوفِّر هذه المجموعة من نماذج «جيس» عدداً واسعاً من الاستخدامات، وتهدف إلى تسريع فرص الابتكار والتطوير والبحث للعديد من التطبيقات المستقبلية للمجتمع العربي الناطق باللغة العربية وثنائي اللغة.
وقال الدكتور أندرو جاكسون، الرئيس التنفيذي لشركة إنسبشن: «اليوم، أصبح الذكاء الاصطناعي قوة مُضافة للقيمة، وكانت نماذج اللغة الكبيرة في طليعة ارتفاع تبنِّي الذكاء الاصطناعي. تم إنشاء "جيس" للحفاظ على التراث والثقافة واللغة العربية، ولجعل الوصول إلى الذكاء الاصطناعي متاحاً للجميع.»
وأضاف جاكسون: «إن إصدار جيس 70B وهذه العائلة الجديدة من النماذج يعزِّز التزامنا بتقديم نموذج أساسي للذكاء الاصطناعي عالي الجودة للدول العربية. كما أنَّ تقنيات التدريب والتكيُّف التي نقدمها بنجاح لنماذج اللغة العربية قابلة للتوسع لتشمل لغات أخرى غير مخدومة بشكل كافٍ، ونحن متحمسون لنقل هذه الخبرة إلى دول أخرى.»
وكانت إنسبشن قد أصدرت «جيس 13B» و «دردشة جيس 13B» في أغسطس 2023، وأطلقت لاحقاً نماذج ذات جودة عالية تركِّز على اللغة العربية، وهي «جيس 30B» و«دردشة جيس 30B» اللذان أثبتا كفاءتهما في بيانات التقييم لكل من الإنجليزية والعربية مقارنةً بالنماذج السابقة.
وقالت نيها سينغوبتا، عالمة تطبيقية رئيسية في شركة إنسيبشن: «بالنسبة للنماذج التي تصل إلى 30 مليار بارامتر، فقد نجحنا في تدريب جيس من الصفر، متفوِّقين باستمرار على النماذج المُعدَّلة في المجال. ومع ذلك، فبالنسبة للنماذج التي تحتوي على 70 مليار بارامتر وما فوق، كانت تعقيدات الحوسبة والأثر البيئي لتدريبها من الصفر كبيرة. لذلك اخترنا بناء جيس 70B على نموذج "لاما2"، ما يسمح لنا بالاستفادة من قاعدة المعرفة الواسعة لنموذج إنجليزي موجود وتطوير حل أكثر كفاءة واستدامة.»
يحتفظ «جيس 70B» بقدرات عالية الجودة لمعالجة اللغة الإنجليزية التي يتمتع بها «لاما2»، ويتفوق عليها في حالات محددة، مع التفوق الكبير في المخرجات العربية مقارنةً بالنموذج الأساسي. ونجح فريق تطوير «جيس» في تدريب أداة تقسيم موسَّعة تعتمد على أداة تقسيم «لاما2» لتعزيز كفاءة معالجة النصوص العربية، ما أدى إلى مضاعفة المفردات الأساسية للنموذج.