أطلق «إنسبشن»، مركز الذكاء الاصطناعي التابع لمجموعة «جي 42» (G42) الإصدار مفتوح المصدر من نموذج «جيس» اللغوي الكبير للغة العربية الأعلى جودة على مستوى العالم، نتيجة استناده إلى 13 مليار مؤشر، وتدرُّبه على مجموعة بيانات مطوَّرة حديثاً تتضمَّن 395 مليار رمز باللغتين العربية والإنجليزية.
سُمِّي النموذج «جيس» تيمُّناً باسم أعلى قمَّة في دولة الإمارات العربية المتحدة، ليقدِّم مزايا الذكاء الاصطناعي التوليدي إلى العالم العربي، وهو ثمرة تعاون بين مركز «إنسبشن» وجامعة محمد بن زايد للذكاء الاصطناعي، أول جامعة للدراسات العليا المتخصِّصة في بحوث الذكاء الاصطناعي على مستوى العالم، وشركة «سيريبراس سيستمز». ودُرِّب النموذج باستخدام الحاسوب الفائق المدعوم بالذكاء الاصطناعي «كوندور جالاكسي» ذي قدرة الحوسبة متعددة الإكسافلوبس (مليون تريليون عملية حسابية في الثانية)، والمصمَّم بالتعاون بين «جي 42» و«سيريبراس سيستمز».
ويعدُّ إطلاق «جيس» محطةً بالغةَ الأهمية في مجال الذكاء الاصطناعي في العالم العربي؛ فهذا النموذج المطوَّر في أبوظبي، يتيح لأكثر من 400 مليون متحدِّث باللغة العربية إمكانية استكشاف القدرات الكامنة للذكاء الاصطناعي التوليدي، ويعزِّز مكانة دولة الإمارات مركزاً رائداً للذكاء الاصطناعي والابتكار وصون الثقافة والتعاون الدولي.
ويسعى مركز «إنسبشن«، من خلال فتح الشيفرة المصدرية لنموذج «جيس»، لتحفيز مشاركة المجتمعات العلمية والأكاديمية والمطوِّرين إلى تسريع نمو منظومة حيوية للذكاء الاصطناعي باللغة العربية، والارتقاء بمستوى الابتكار في هذا المجال، وقد يشكِّل «جيس» نموذجاً يُحتذى به للغات أخرى لا تحظى حالياً بدرجة كافية من التمثيل في بيئات الذكاء الاصطناعي الرائجة.
وقال أندرو جاكسون، الرئيس التنفيذي لمركز «إنسبشن» للذكاء الاصطناعي: «نؤمن في (إنسبشن) بأنَّ التعاون هو أساس الازدهار. ونرسي اليوم معياراً جديداً لتقدُّم الذكاء الاصطناعي في منطقة الشرق الأوسط يضمن مكانةً متميِّزة للغة العربية بكل ثرائها وإرثها في مشهد الذكاء الاصطناعي. ويعكس (جيس) التزامنا الراسخ بالتميُّز والابتكار ونشر منظومة الذكاء الاصطناعي على نطاق أوسع».
ويبيِّن تقييم أداء «جيس» تفوُّقه على النماذج اللغوية العربية الحالية بهامش كبير، ومنافسته للنماذج اللغوية الإنجليزية، على الرغم من تلقّيه تدريباً أقلَّ على بيانات اللغة الإنجليزية. وتُظهِر هذه النتائج أنَّ جانب اللغة الإنجليزية من النموذج تعلَّم من بيانات اللغة العربية والعكس صحيح، ما يفتح آفاقَ حقبةٍ جديدةٍ لتطوير النماذج اللغوية الكبيرة وتدريبها.
وقال البروفيسور إيريك زينغ، رئيس جامعة محمد بن زايد للذكاء الاصطناعي والبروفيسور الجامعي: «تطلَّب تطوير نموذج لغوي كبير للغة العربية من هذا المستوى إجراءَ أبحاثٍ متقدِّمةٍ في مجال الذكاء الاصطناعي، والوصول إلى فهم عميق للغة العربية بتنوُّعها وإرثها الغني. ولأنَّ النماذج اللغوية الكبيرة تكتسب أهميةً متزايدةً في المجتمع، ستواصل جامعة محمد بن زايد للذكاء الاصطناعي ريادةَ النماذج اللغوية الكبيرة عالية الكفاءة والفاعلية والدقة».
وتزامناً مع إصدار النموذج، عَقَدَ مركز «إنسبشن» وجامعة محمد بن زايد للذكاء الاصطناعي شراكةً أكاديميَّةً لإتاحة استخدام «جيس» للفِرَق المطوِّرة لنماذج اللغة العربية بهدف اختباره. وتشمل قائمة الشركاء الأكاديميين لمركز «إنسبشن» في إطلاق نموذج «جيس» جامعة كارنيغي ميلون، مدرسة البوليتكنيك الفرنسية، جامعة حمد بن خليفة، مختبر المعلوماتية في جامعة شمال باريس، مختبر كامل التابع لجامعة نيويورك أبوظبي، وجامعة إدنبرة. وستبدأ العديد من الهيئات والمؤسَّسات الإماراتية باستخدام النموذج، ويشمل ذلك وزارة الخارجية، وزارة الصناعة والتكنولوجيا المتقدِّمة، دائرة الصحة – أبوظبي، شركة بترول أبوظبي الوطنية (أدنوك)، طيران الاتحاد، بنك أبوظبي الأول، ومجموعة e&، ما يوفِّر نتائج تجريبية قيِّمة تسهم في تحسين النموذج.
يُعَدُّ «جيس» نموذجاً لغوياً كبيراً قائماً على المحوِّلات ويستخدم العديد من المزايا المتطوِّرة، بما فيها ميزة الانتباه للتحيُّزات الخطية (ALiBi) التي تمكِّن النموذج من استقراء تسلسل طويل لتوفير سياق أفضل وأدق. ومن التقنيات الرائدة التي يستخدمها النموذج أيضاً دالة تنشيط الوحدات الخطية المسورة (SwiGLU)، وتحديد معلِّمات الحد الأقصى للتحديث، بغية تعزيز كفاءة تدريب النموذج ودقته.
وعمل فريقا جامعة محمد بن زايد للذكاء الاصطناعي ومركز «إنسبشن» على تقييم نموذج «جيس» وتعديله، بعد تدريبه على مجموعة بيانات مخصَّصة تتضمَّن 116 مليار رمز متميز (tokens) باللغة العربية لاستيعاب تعقيد وتنوُّع وغِنى هذه اللغة. واستخدم في التدريب حاسوب الذكاء الاصطناعي الفائق «كوندور جالاكسي1» (CG-1)، الذي طُوِّر بالتعاون بين «جي 42» وشركة «سيريبراس سيستمز». وتضمَّنت مجموعة البيانات 279 مليار رمز متميِّز باللغة الإنجليزية لضمان الارتقاء بأداء النموذج عبر التحويل ثنائي اللغة. وسيواصل مركز «إنسبشن» وجامعة محمد بن زايد للذكاء الاصطناعي تحسين النموذج وتوسيع نطاقه لمواكبة نمو مجتمع مستخدميه.
وقال أندرو فيلدمان، الرئيس التنفيذي لشركة «سيريبراس سيستمز»: «حقَّقت شراكتنا الاستراتيجية مع (جي 42) نتائج متميِّزة بالفعل، إذ قدَّمنا منذ بضعة أسابيع حاسوب (كوندور جالاكسي) الفائق المدعوم بالذكاء الاصطناعي مع قدرة حوسبة متعدِّدة الإكسافلوبس. واليوم تثمر هذه الشراكة إنجازاً استثنائياً آخر يتمثَّل في النموذج اللغوي الكبير للغة العربية الموجَّه إلى مجتمع البرمجيات مفتوحة المصدر. ولطالما حرصنا في (سيريبراس) على تصميم تقنيات متطوِّرة واستكشاف السبل المبتكَرة لاستخدامها. ويشكِّل (جيس) دعماً كبيراً لمجتمع البرمجيات مفتوحة المصدر العالمي، ودليلاً ملموساً على سهولة استخدام حاسوب (كوندور جالاكسي1) وقدرته على تطوير نماذج الذكاء الاصطناعي بسرعة فائقة».
ويُعَدُّ «إنسبشن» المركز الرائد في دولة الإمارات لأبحاث الذكاء الاصطناعي، النظرية منها والتطبيقية، بمخزونه الغني من مئات الأوراق البحثية المنشورة تحت اسمه، ويتبوَّأ اليوم مكانةً رائدةً تتيح له إطلاق العنان للتكامل بين القطاعات الأكاديمية والتجارية والتنظيمية، لتوفير بيئة تعاونية تدعم الاستخدام التجاري لتقنيات الذكاء الاصطناعي في مختلف القطاعات.
يمكن تنزيل نموذج "جيس" من موقع "Hugging Face". و يمكن للمستخدمين تجربته بالتسجيل في الموقع الإلكتروني لجيس وتلقي دعوة للوصول إليه.
لمعرفة المزيد عن نموذج "جيس" ومقارنته بالنماذج الأخرى، يمكن قراءة ورقة عمل "جيس" البحثية.