Open-Nav: Exploring Zero-Shot Vision-and-Language Navigation in Continuous Environment with Open-Source LLMs

要約

視覚と言語のナビゲーション (VLN) タスクでは、エージェントがテキストの指示に従って 3D 環境を移動する必要があります。
従来のアプローチでは教師あり学習手法が使用され、VLN モデルをトレーニングするためにドメイン固有のデータセットに大きく依存します。
最近の手法では、GPT-4 のようなクローズドソースの大規模言語モデル (LLM) を利用してゼロショット方式で VLN タスクを解決しようとしていますが、高価なトークンコストと現実世界のアプリケーションにおける潜在的なデータ侵害に関する課題に直面しています。
この研究では、連続環境におけるゼロショット VLN 用のオープンソース LLM を調査する新しい研究である Open-Nav を紹介します。
Open-Nav は、時空間思考連鎖 (CoT) 推論アプローチを採用して、タスクを指示の理解、進捗状況の推定、意思決定に分割します。
きめ細かいオブジェクトと空間知識によりシーンの認識を強化し、ナビゲーションにおける LLM の推論を向上させます。
シミュレーション環境と現実世界の両方での広範な実験により、Open-Nav がクローズドソース LLM を使用する場合と比較して競争力のあるパフォーマンスを達成できることが実証されました。

要約(オリジナル)

Vision-and-Language Navigation (VLN) tasks require an agent to follow textual instructions to navigate through 3D environments. Traditional approaches use supervised learning methods, relying heavily on domain-specific datasets to train VLN models. Recent methods try to utilize closed-source large language models (LLMs) like GPT-4 to solve VLN tasks in zero-shot manners, but face challenges related to expensive token costs and potential data breaches in real-world applications. In this work, we introduce Open-Nav, a novel study that explores open-source LLMs for zero-shot VLN in the continuous environment. Open-Nav employs a spatial-temporal chain-of-thought (CoT) reasoning approach to break down tasks into instruction comprehension, progress estimation, and decision-making. It enhances scene perceptions with fine-grained object and spatial knowledge to improve LLM’s reasoning in navigation. Our extensive experiments in both simulated and real-world environments demonstrate that Open-Nav achieves competitive performance compared to using closed-source LLMs.

arxiv情報

著者 Yanyuan Qiao,Wenqi Lyu,Hui Wang,Zixu Wang,Zerui Li,Yuan Zhang,Mingkui Tan,Qi Wu
発行日 2024-09-27 14:47:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO パーマリンク