要約
Vision-and-Language Navigation(VLN)では、エージェントが部分的な観察可能性の下で自然な指示に従ってナビゲートする必要があり、知覚を言語に合わせることを困難にします。
最近の方法は、将来のシーンを想像することでこれを軽減しますが、視覚ベースの合成に依存しているため、計算コストが高く冗長な詳細につながります。
この目的のために、\ textit {Language}フォームを介して重要な環境セマンティクスを適応的に想像することを提案し、より信頼性が高く効率的な戦略を可能にします。
具体的には、大規模な言語モデル(LLM)に基づいて構築されたデュアルブランチのセルフガイド想像力ポリシーである新しい適応テキストドリーマー(ATD)を紹介します。
ATDは、左脳が論理的統合に焦点を当てている人間のような左右の脳構造で設計されており、右脳は将来のシーンの想像力豊かな予測に責任があります。
これを達成するために、両方の脳内のQ-formerのみを微調整して、LLMのドメイン固有の知識を効率的にアクティブにし、ナビゲーション中の論理的推論と想像力の動的な更新を可能にします。
さらに、想像された出力を正規化してナビゲーションエキスパートモジュールに注入するための相互相互作用メカニズムを導入し、ATDがLLMの推論能力とナビゲーションモデルの専門知識の両方を共同で活用できるようにします。
R2Rベンチマークで広範な実験を行い、ATDはパラメーターが少ない最先端のパフォーマンスを実現します。
コードは\ href {https://github.com/zhangpingrui/adaptive-text-dreamer} {ここに}です。
要約(オリジナル)
Vision-and-Language Navigation (VLN) requires the agent to navigate by following natural instructions under partial observability, making it difficult to align perception with language. Recent methods mitigate this by imagining future scenes, yet they rely on vision-based synthesis, leading to high computational cost and redundant details. To this end, we propose to adaptively imagine key environmental semantics via \textit{language} form, enabling a more reliable and efficient strategy. Specifically, we introduce a novel Adaptive Text Dreamer (ATD), a dual-branch self-guided imagination policy built upon a large language model (LLM). ATD is designed with a human-like left-right brain architecture, where the left brain focuses on logical integration, and the right brain is responsible for imaginative prediction of future scenes. To achieve this, we fine-tune only the Q-former within both brains to efficiently activate domain-specific knowledge in the LLM, enabling dynamic updates of logical reasoning and imagination during navigation. Furthermore, we introduce a cross-interaction mechanism to regularize the imagined outputs and inject them into a navigation expert module, allowing ATD to jointly exploit both the reasoning capacity of the LLM and the expertise of the navigation model. We conduct extensive experiments on the R2R benchmark, where ATD achieves state-of-the-art performance with fewer parameters. The code is \href{https://github.com/zhangpingrui/Adaptive-Text-Dreamer}{here}.
arxiv情報
著者 | Pingrui Zhang,Yifei Su,Pengyuan Wu,Dong An,Li Zhang,Zhigang Wang,Dong Wang,Yan Ding,Bin Zhao,Xuelong Li |
発行日 | 2025-05-27 08:40:20+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google