要約
具体化されたナビゲーションは、具体化されたAIのより広範な追求内の基礎柱として立っています。
ただし、以前のナビゲーション調査は、さまざまなタスク/機能、たとえばObjnav、Imgnav、VLNに分割されており、タスクの目標とモダリティが異なるため、データセットとメソッドは個別に設計されています。
この作業では、マルチモーダルとマルチ容量の任意の化合物を含む自由形式の指示に従うことができるジェネラリストナビゲーションエージェントへの措置を講じます。
これを達成するために、Octonav-BenchとOctonav-R1と呼ばれる大規模なベンチマークと対応する方法を提案します。
具体的には、Octonav-Benchは連続環境を備えており、設計された注釈パイプラインを介して構築されています。
私たちは、任意のモダリティと能力を備えたフリーフォームで命令が多様である、指導指導のペアを徹底的に作成します。
また、アクションの背後にある思考プロセスを提供するために、Octonav-Bench内に思考前(TBA-COT)データセットを構築します。
Octonav-R1の場合、MLLMSに基づいて構築し、2D視覚観測のみに基づいて低レベルのアクションを生成できるVLAタイプモデルに適応します。
さらに、3つの段階、つまりアクション/TBA-SFT、NAV-GPRO、およびオンラインRLステージで構成されるハイブリッドトレーニングパラダイム(HTP)を設計します。
各段階には、特別に設計された学習ポリシーと報酬が含まれています。
重要なことに、TBA-SFTおよびNAV-GRPOのデザインでは、Openai-O1とDeepSeek-R1に触発されています。
したがって、私たちは、具体化されたナビゲーション分野での思考前の行動を達成する方法を調査し、ジェネラリストに対するモデルの推論能力を向上させることを目指しています。
具体的には、TBA-SFTを提案して、TBA-COTデータセットを利用してモデルをコールドスタートフレーズとして微調整し、NAV-GPROを活用して思考能力を向上させます。
最後に、Octonav-R1は、以前の方法と比較して優れた性能を示します。
要約(オリジナル)
Embodied navigation stands as a foundation pillar within the broader pursuit of embodied AI. However, previous navigation research is divided into different tasks/capabilities, e.g., ObjNav, ImgNav and VLN, where they differ in task objectives and modalities, making datasets and methods are designed individually. In this work, we take steps toward generalist navigation agents, which can follow free-form instructions that include arbitrary compounds of multi-modal and multi-capability. To achieve this, we propose a large-scale benchmark and corresponding method, termed OctoNav-Bench and OctoNav-R1. Specifically, OctoNav-Bench features continuous environments and is constructed via a designed annotation pipeline. We thoroughly craft instruction-trajectory pairs, where instructions are diverse in free-form with arbitrary modality and capability. Also, we construct a Think-Before-Action (TBA-CoT) dataset within OctoNav-Bench to provide the thinking process behind actions. For OctoNav-R1, we build it upon MLLMs and adapt it to a VLA-type model, which can produce low-level actions solely based on 2D visual observations. Moreover, we design a Hybrid Training Paradigm (HTP) that consists of three stages, i.e., Action-/TBA-SFT, Nav-GPRO, and Online RL stages. Each stage contains specifically designed learning policies and rewards. Importantly, for TBA-SFT and Nav-GRPO designs, we are inspired by the OpenAI-o1 and DeepSeek-R1, which show impressive reasoning ability via thinking-before-answer. Thus, we aim to investigate how to achieve thinking-before-action in the embodied navigation field, to improve model’s reasoning ability toward generalists. Specifically, we propose TBA-SFT to utilize the TBA-CoT dataset to fine-tune the model as a cold-start phrase and then leverage Nav-GPRO to improve its thinking ability. Finally, OctoNav-R1 shows superior performance compared with previous methods.
arxiv情報
著者 | Chen Gao,Liankai Jin,Xingyu Peng,Jiazhao Zhang,Yue Deng,Annan Li,He Wang,Si Liu |
発行日 | 2025-06-11 15:15:17+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google