Language and Planning in Robotic Navigation: A Multilingual Evaluation of State-of-the-Art Models

要約

GPT-4などの大規模な言語モデル(LLM)は、複数のドメインにまたがる膨大な量のデータセットで訓練されており、さまざまなタスクで重要な推論、理解、および計画機能を示しています。
この研究では、既存の研究で特に露出していない領域であるロボティクスのビジョンと言語ナビゲーション(VLN)ドメイン内のアラビア語統合における初めての作業を提示します。
アラビア語中心のLLM、JAISと並んで、GPT-4O MINI、LLAMA 3 8B、PHI-3 Medium 14Bを含む最先端の多言語モデル(SLM)の包括的な評価を実行します。
当社のアプローチは、純粋なLLMベースの指導に従うナビゲーションエージェントであるNAVGPTフレームワークを利用して、R2Rデータセットを使用したゼロショットシーケンシャルアクション予測を介したナビゲーション推論に対する言語の影響を評価します。
包括的な実験を通じて、私たちのフレームワークは、英語とアラビア語の両方の指示が提供された場合、ナビゲーションタスクの高レベルの計画が可能であることを実証します。
ただし、特定のモデルは、能力に固有の制限、最適なパフォーマンス、解析の問題のために、アラビア語の推論と計画に苦労しました。
これらの調査結果は、効果的なナビゲーションのための言語モデルの計画と推論能力を強化することの重要性を強調し、これをさらなる開発の重要な領域として強調しながら、インパクトのある現実世界アプリケーションのアラビア語モデルの可能性を解き放ちます。

要約(オリジナル)

Large Language Models (LLMs) such as GPT-4, trained on huge amount of datasets spanning multiple domains, exhibit significant reasoning, understanding, and planning capabilities across various tasks. This study presents the first-ever work in Arabic language integration within the Vision-and-Language Navigation (VLN) domain in robotics, an area that has been notably underexplored in existing research. We perform a comprehensive evaluation of state-of-the-art multi-lingual Small Language Models (SLMs), including GPT-4o mini, Llama 3 8B, and Phi-3 medium 14B, alongside the Arabic-centric LLM, Jais. Our approach utilizes the NavGPT framework, a pure LLM-based instruction-following navigation agent, to assess the impact of language on navigation reasoning through zero-shot sequential action prediction using the R2R dataset. Through comprehensive experiments, we demonstrate that our framework is capable of high-level planning for navigation tasks when provided with instructions in both English and Arabic. However, certain models struggled with reasoning and planning in the Arabic language due to inherent limitations in their capabilities, sub-optimal performance, and parsing issues. These findings highlight the importance of enhancing planning and reasoning capabilities in language models for effective navigation, emphasizing this as a key area for further development while also unlocking the potential of Arabic-language models for impactful real-world applications.

arxiv情報

著者 Malak Mansour,Ahmed Aly,Bahey Tharwat,Sarim Hashmi,Dong An,Ian Reid
発行日 2025-06-17 16:28:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG, cs.RO パーマリンク