要約
Vision-and-Language Navigation(VLN)は、具体化されたAIで複雑な課題を提示し、エージェントが自然言語の指示を解釈し、視覚的に豊かでなじみのない環境をナビゲートすることを要求します。
クリップやフラミンゴなどの大規模な視覚言語モデル(LVLMS)の最近の進歩により、マルチモーダル理解が大幅に改善されましたが、計算コストとリアルタイムの展開に関連する新しい課題を導入しました。
このプロジェクトでは、アクションプランニングからビジョン言語の理解を隔離するモジュール式のプラグアンドプレイナビゲーションフレームワークを提案します。
凍結視覚言語モデルであるQWEN2.5-VL-7B-Instructを軽量計画ロジックと統合することにより、広範なモデル微調整なしで柔軟で高速で適応性のあるナビゲーションを実現することを目指しています。
当社のフレームワークは、迅速なエンジニアリング、構造化された履歴管理、およびナビゲーションステップ全体の意思決定の継続性を高めるための2フレームの視覚入力戦略を活用します。
MatterPort3DデータセットとHabitat-LABシミュレーション環境を使用して、VLN-CE設定内のルーム間ベンチマークでシステムを評価します。
私たちの最初の結果は、厳格な評価設定の下で目に見えない環境への一般化の課題を明らかにしていますが、モジュール式アプローチは、スケーラブルで効率的なナビゲーションシステムの基礎を築き、環境プライアーの強化とマルチモーダル入力統合の拡大による将来の改善のための有望な方向を強調しています。
要約(オリジナル)
Vision-and-Language Navigation (VLN) presents a complex challenge in embodied AI, requiring agents to interpret natural language instructions and navigate through visually rich, unfamiliar environments. Recent advances in large vision-language models (LVLMs), such as CLIP and Flamingo, have significantly improved multimodal understanding but introduced new challenges related to computational cost and real-time deployment. In this project, we propose a modular, plug-and-play navigation framework that decouples vision-language understanding from action planning. By integrating a frozen vision-language model, Qwen2.5-VL-7B-Instruct, with lightweight planning logic, we aim to achieve flexible, fast, and adaptable navigation without extensive model fine-tuning. Our framework leverages prompt engineering, structured history management, and a two-frame visual input strategy to enhance decision-making continuity across navigation steps. We evaluate our system on the Room-to-Room benchmark within the VLN-CE setting using the Matterport3D dataset and Habitat-Lab simulation environment. Although our initial results reveal challenges in generalizing to unseen environments under strict evaluation settings, our modular approach lays a foundation for scalable and efficient navigation systems, highlighting promising directions for future improvement through enhanced environmental priors and expanded multimodal input integration.
arxiv情報
著者 | Yicheng Duan,Kaiyu tang |
発行日 | 2025-06-11 20:51:58+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google