نموذج ذكاء اصطناعي يتعلم كالبشر عبر الصوت والصورة
‎جريدة الإتحاد -
[unable to retrieve full-text content]

يتميز البشر بقدرتهم الطبيعية على التعلم من خلال الربط بين حاستي السمع والبصر. على سبيل المثال، يمكننا مشاهدة عازف تشيلو وندرك أن الحركات التي يؤديها تولّد الموسيقى التي نسمعها.
وفي هذا السياق، طور باحثون من معهد «MIT» للتكنولوجيا بالتعاون مع مؤسسات أخرى نهجًا جديدًا يُمكّن نماذج الذكاء الاصطناعي من التعلم عبر الربط بين الصوت والصورة، تمامًا كما يفعل البشر. ويُتوقع أن يُحدث هذا الابتكار فرقًا في مجالات مثل الصحافة وصناعة الأفلام، من خلال تمكين النماذج من التنسيق التلقائي بين المحتوى السمعي والبصري.
النموذج الجديد، المسمى «CAV-MAE Sync»، يعتمد على تدريب خالٍ من الإشراف البشري، حيث يتعلم مطابقة الإطارات المرئية مع الأصوات المصاحبة بدقة أكبر. وقد أدت تعديلات معمارية على النموذج إلى تحسين أدائه في تصنيف المشاهد واسترجاع الفيديوهات بناءً على استعلامات صوتية.
تؤكد النتائج أن النموذج الجديد يتفوق على نماذج أخرى أكثر تعقيدًا، ما يشير إلى إمكانية توسيع استخداماته مستقبلاً، خاصة مع دمجه بقدرات معالجة نصوص تمهيدًا لتطوير نماذج لغوية متعددة الوسائط.
وقد تم دعم هذا العمل من قبل وزارة التعليم والبحث الفيدرالية الألمانية، ومختبر MIT-IBM Watson للذكاء الاصطناعي.



إقرأ المزيد