تطوير طريقة جديدة لزيادة قدرات نماذج اللغة الكبيرة
‎جريدة الإتحاد -
[unable to retrieve full-text content]

طوّر باحثون في معهد ماساتشوستس للتكنولوجيا، بنيةً تعبيريةً تُحسّن من تتبع الحالة والاستدلال التسلسلي في نماذج اللغة الكبيرة (LLMs) عند التعامل مع النصوص الطويلة.

تعاني آلية الانتباه المتطورة الحالية داخل المحولات، وهي البنية الأساسية المستخدمة في نماذج اللغة الكبيرة (LLMs) لتحديد أهمية الكلمات، من قيود نظرية وتجريبية عندما يتعلق الأمر بهذه القدرات..

وقد أسفر بحثٌ بقيادة معهد ماساتشوستس للتكنولوجيا ومختبر الذكاء الاصطناعي التابع له وشركة آي بي إم واتسون عن تطوير تقنية ترميز تُعرف باسم (PaTH Attention)، تجعل المعلومات الموضعية قابلةً للتكيف ومدركةً للسياق بدلاً من كونها ثابتة.

يقول المؤلف الرئيسي للورقة البحثية، يون كيم، الأستاذ المشارك في قسم الهندسة الكهربائية وعلوم الحاسوب، وعضو مختبر علوم الحاسوب والذكاء الاصطناعي، والباحث في مختبر MIT-IBM Watson للذكاء الاصطناعي "تُمكّن نماذج المحولات من نمذجة العديد من المجالات بدقة وقابلية للتوسع، ولكنها تعاني من القيود المذكورة آنفا فيما يتعلق بتتبع الحالة، وهي فئة من الظواهر التي يُعتقد أنها تُشكّل أساس القدرات المهمة التي نرغب في وجودها في أنظمة الذكاء الاصطناعي لدينا. لذا، فإن السؤال المهم هو: كيف يُمكننا الحفاظ على قابلية التوسع وكفاءة نماذج المحولات، مع تمكين تتبع الحالة؟". 
وقد عُرضت ورقة بحثية جديدة حول هذا العمل في وقت سابق من هذا الشهر في مؤتمر أنظمة معالجة المعلومات العصبية (NeurIPS). 
مسار الفهم

بدلاً من تعيين دوران ثابت لكل كلمة بناءً على المسافة النسبية بين الرموز، كما في خوارزمية ترميز الموضع الدوراني (RoPE)، تتميز خوارزمية PaTH Attention بالمرونة، حيث تتعامل مع الكلمات الوسيطة كمسار يتكون من تحويلات صغيرة تعتمد على البيانات. كل تحويل، قائم على عملية رياضية، يعمل كمرآة صغيرة تتكيف مع محتوى كل رمز يمر بها. كل خطوة في التسلسل تؤثر على كيفية تفسير النموذج للمعلومات لاحقًا.
يسمح التأثير التراكمي للنظام بنمذجة كيفية تغير المعنى على طول المسار بين الكلمات، وليس فقط المسافة بينها. يُمكّن هذا النهج المحولات من تتبع كيفية تغير الكيانات والعلاقات بمرور الوقت، مما يمنحها إحساسًا بـ "الذاكرة الموضعية". تخيل الأمر كأنك تسير في مسار ما بينما تختبر بيئتك وكيف تؤثر عليك.
اقرأ أيضا... مؤسسات تستخدم الذكاء الاصطناعي لأعمال معقدة ومتعددة الخطوات
علاوة على ذلك، طور الفريق خوارزمية فعالة من حيث استهلاك الموارد لحساب درجات الانتباه بين كل زوج من الرموز بكفاءة أكبر، بحيث يتم ضغط التحويل الرياضي التراكمي من PaTH Attention وتقسيمه إلى عمليات حسابية أصغر، مما يجعله متوافقًا مع المعالجة السريعة على وحدات معالجة الرسومات (GPUs).

ثم استكشف الباحثون أداء PaTH Attention على مهام اصطناعية وواقعية، بما في ذلك الاستدلال، ومعايير السياق الطويل، والتدريب الكامل على نموذج لغة كبيرة، لمعرفة ما إذا كان قد حسّن قدرة النموذج على تتبع المعلومات بمرور الوقت.
اختبر الفريق قدرة النموذج على تتبع أمر "الكتابة" الأخير رغم وجود العديد من الخطوات المشتتة واختبارات الاستدعاء متعددة الخطوات، وهي مهام صعبة على أساليب الترميز الموضعي القياسية مثل RoPE. كما درّب الباحثون نماذج لغات كبيرة متوسطة الحجم وقارنوها بأساليب أخرى. حسّن نموذج PaTH Attention من مستوى التعقيد وتفوّق على الأساليب الأخرى في معايير الاستدلال التي لم يُدرّب عليها. كما قيّموا الاسترجاع والاستدلال والاستقرار باستخدام مدخلات من عشرات الآلاف من الرموز. أثبت نموذج PaTH Attention باستمرار قدرته على إدراك المحتوى.

يقول كيم "وجدنا أنه في كل من المهام التشخيصية المصممة لاختبار قيود نماذج المحولات ومهام نمذجة اللغة الواقعية، استطاع نهجنا الجديد التفوق على آليات الانتباه الحالية، مع الحفاظ على كفاءتها". ويضيف "أتطلع بشوق لمعرفة ما إذا كانت هذه الأنواع من ترميزات الموضع المعتمدة على البيانات، مثل PATH، تُحسّن أداء نماذج المحولات في المجالات المنظمة مثل علم الأحياء، في تحليل البروتينات أو الحمض النووي".

التفكير على نطاق أوسع وبكفاءة أكبر

ثم بحث افريق في أداء آلية PaTH Attention إذا ما حاكت الإدراك البشري بشكل أدق، حيث نتجاهل المعلومات القديمة أو الأقل صلة عند اتخاذ القرارات. ولتحقيق ذلك، دمجوا PaTH Attention مع نظام ترميز موضعي آخر يُعرف باسم Forgetting Transformer (FoX)، والذي يسمح للنماذج بـ"النسيان" الانتقائي. يُضيف نظام PaTH-FoX الناتج طريقةً لتقليل أهمية المعلومات بطريقة تعتمد على البيانات، محققًا نتائج قوية في معايير الاستدلال، وفهم السياقات الطويلة، ونمذجة اللغة. وبهذه الطريقة، تُعزز PaTH Attention القدرة التعبيرية لبنى المحولات.
مصطفى أوفى (أبوظبي)



إقرأ المزيد