قامت مايكروسوفت، بالتعاون مع فريق من الباحثين الأكاديميين، بتطوير معيار جديد يسمى GroundedPlanBench لمعالجة إحدى المشاكل المستمرة في مجال الروبوتات. وتتمثل هذه المشكلة في الصعوبة التي تواجهها الروبوتات في تحديد “ماذا تفعل وأين تفعل في نفس الوقت”.
وتقوم معظم الأنظمة الموجودة على تقسيم هذه القرارات إلى مرحلتين: أولا، يقوم نموذج لغوي مرئي بإنشاء خطة نصية، ومن ثم يقوم نموذج آخر بتحويل هذه الخطة إلى إجراءات ملموسة. ومع ذلك، فإن هذا الفصل غالبًا ما يسبب أخطاء، حتى في المهام البسيطة. على سبيل المثال، عندما يُطلب من الروبوت التخلص من الأكواب الورقية، فقد يختار الكوب الخطأ أو يقوم بخطوات لم يُطلب منه. وتزداد هذه الأخطاء بشكل خاص في البيئات المزدحمة.
ولمعالجة هذه المشكلة، تم تصميم GroundedPlanBench لاختبار قدرة نماذج الذكاء الاصطناعي على “تخطيط المهام مع الموقع الدقيق لكل إجراء”. بدلاً من الاعتماد فقط على النص، يتم ربط كل إجراء بموقع محدد في الصورة. ترتبط الإجراءات الأساسية، مثل الإمساك والوضع والفتح والإغلاق، بالأشياء أو المواقع، مما يجبر النظام على إجراء اتصالات بين القرارات والعالم المادي.
يحتوي المعيار على أكثر من 1000 مهمة مأخوذة من تفاعلات الروبوت الواقعية، بدءًا من التعليمات المباشرة، مثل وضع ملعقة على طبق، إلى التعليمات المفتوحة، مثل إعداد الطاولة. يعد هذا التنوع ضروريًا لأن الروبوتات غالبًا ما تفشل عندما تكون التعليمات غامضة.
في أحد الأمثلة، طُلب من النظام وضع أربع مناشف على أريكة، لكنه اختار نفس المنشفة عدة مرات لأن الوصف لم يكن واضحًا. حتى العبارات التفصيلية مثل “منشفة أعلى اليسار” لم تكن دقيقة بما يكفي للتنفيذ الموثوق. وأشار الباحثون إلى أن “اللغة الغامضة تؤدي إلى إجراءات غير قابلة للتنفيذ”، مما يسلط الضوء على القيود المفروضة على الأنظمة الحالية.
ولتحسين الأداء، طور الفريق طريقة تدريب جديدة تسمى “التخطيط الأرضي للفيديو إلى المكاني (V2GP)”، والتي تتعلم من مقاطع الفيديو للروبوتات التي تؤدي المهام. تكتشف هذه الطريقة التفاعلات مع الكائنات وتتعرف عليها وتتتبع مواقعها. والنتيجة هي خطة منظمة تربط كل إجراء بموقع محدد.
باستخدام هذه الطريقة، تم إنشاء أكثر من 40.000 خطة مترابطة، تتراوح من إجراءات بسيطة من خطوة واحدة إلى تسلسلات أطول تصل إلى 26 خطوة. وعندما تم تدريب النماذج على هذه البيانات، تحسنت قدرتها على اختيار الإجراءات الصحيحة وربطها بالأشياء الصحيحة، كما قللت من الأخطاء المتكررة مثل العمل على نفس العنصر عدة مرات.
ومع ذلك، لا تزال هناك تحديات، خاصة فيما يتعلق بالمهام الطويلة والمعقدة أو التعليمات غير المباشرة. يقول الباحثون: “يجب على النماذج أن تأخذ في الاعتبار سلسلة طويلة من الإجراءات وتحافظ على الاتساق عبر عدة خطوات”.
أظهرت المقارنة مع الأنظمة التقليدية التي تفصل بين التخطيط والتوطين المكاني أنها تواجه صعوبة في التعامل مع الغموض، وغالبًا ما تقوم بمطابقة إجراءات متعددة لنفس الكائن أو الموقع. لكن الجمع بين الخطوتين في عملية واحدة يقلل من عدم التوازن هذا ويبقي القرارات المتعلقة بالإجراءات والمواقع مرتبطة بشكل متماسك.
ويشير الفريق إلى أن العمل المستقبلي قد يجمع بين هذا النهج والنماذج التنبؤية التي تتنبأ بنتائج الإجراءات قبل تنفيذها، مما قد يساعد الروبوتات على تجنب الأخطاء في الوقت الفعلي.
توضح النتائج الحالية اتجاهًا واضحًا في مجال الروبوتات: “الأنظمة التي تفهم الإجراءات والمواقع تكون أكثر قدرة على العمل بفعالية في بيئات العالم الحقيقي”.