Aux-Think: Exploring Reasoning Strategies for Data-Efficient Vision-Language Navigation

要約

Vision-Language Navigation(VLN)は、自然言語の指示に従って複雑な現実世界環境でナビゲートできる具体化されたエージェントを開発するための重要なタスクです。
大規模な前提条件モデルによるVLNの最近の進歩により、従来のアプローチと比較して、一般化と指導の基礎が大幅に改善されました。
ただし、ナビゲーションにおける推論戦略の役割 – 行動中心の長期課題は、視覚的な質問に答えるなどの静的タスクで実証された推論(COT)の実証された成功にもかかわらず、露出していないものです。
このギャップに対処するために、VLNの推論戦略の最初の体系的な評価を実施します。これには、考えなし(直接アクション予測)、考え方(アクション前の理由)、考え方(アクション後の理由)を含みます。
驚くべきことに、私たちの調査結果は、推論時の推論の推論がナビゲーションの精度を低下させ、VLNに統合する課題を強調する推論時の推論崩壊の問題を明らかにしています。
この洞察に基づいて、オンライン予測では推論なしにアクションを直接推測しながら、COT監督を通じて構造化された推論パターンを内面化するためにモデルをトレーニングするフレームワークであるAux-Thinkを提案します。
このフレームワークをサポートするために、VLN用の最初の選択の注釈付きデータセットであるR2R-COT-320Kをリリースします。
広範な実験は、AUXを考えて、トレーニングの取り組みを大幅に削減し、同じデータスケールで最高のパフォーマンスを達成することを示しています。

要約(オリジナル)

Vision-Language Navigation (VLN) is a critical task for developing embodied agents that can follow natural language instructions to navigate in complex real-world environments. Recent advances in VLN by large pretrained models have significantly improved generalization and instruction grounding compared to traditional approaches. However, the role of reasoning strategies in navigation-an action-centric, long-horizon task-remains underexplored, despite Chain-of-Thought (CoT) reasoning’s demonstrated success in static tasks like visual question answering. To address this gap, we conduct the first systematic evaluation of reasoning strategies for VLN, including No-Think (direct action prediction), Pre-Think (reason before action), and Post-Think (reason after action). Surprisingly, our findings reveal the Inference-time Reasoning Collapse issue, where inference-time reasoning degrades navigation accuracy, highlighting the challenges of integrating reasoning into VLN. Based on this insight, we propose Aux-Think, a framework that trains models to internalize structured reasoning patterns through CoT supervision, while inferring action directly without reasoning in online prediction. To support this framework, we release R2R-CoT-320k, the first Chain-of-Thought annotated dataset for VLN. Extensive experiments show that Aux-Think reduces training effort greatly and achieves the best performance under the same data scale.

arxiv情報

著者 Shuo Wang,Yongcai Wang,Wanting Li,Xudong Cai,Yucheng Wang,Maiyue Chen,Kaihui Wang,Zhizhong Su,Deying Li,Zhaoxin Fan
発行日 2025-05-20 08:51:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク