要約
マルチフロアホームなどの大規模なシーンは、ドローンやロボット掃除機などの市販のロボットで一般的に使用される手法である係数グラフでロボットポーズと共同で推定されたランドマークの3Dグラフで堅牢かつ効率的にマッピングできます。
この作業では、そのようなマップで自然言語の指示を接地するためのゼロショット方法であるフォロー(LIFGIF)の指示のための言語が感染した因子グラフを提案します。
Lifgifには、マップが構築されている間に、新しい環境で自然言語ナビゲーション指示に従うためのポリシーも含まれており、物理的な世界で堅牢なナビゲーションパフォーマンスを可能にします。
LIFGIFを評価するために、オブジェクト中心の自然言語ナビゲーション指示の接地を評価するために、新しいデータセットであるオブジェクト中心のVLN(OC-VLN)を提示します。
関連するタスクからの最先端の2つのゼロショットベースライン、オブジェクトゴールナビゲーションとビジョン言語ナビゲーションと比較して、LIFGIFがOCVLNのすべての評価メトリックでそれらよりも優れていることを実証します。
最後に、ボストンのダイナミクススポットロボットで現実世界で続くゼロショットオブジェクト中心の命令を実行するためのLifGIFの有効性を成功裏に実証しました。
要約(オリジナル)
Large scale scenes such as multifloor homes can be robustly and efficiently mapped with a 3D graph of landmarks estimated jointly with robot poses in a factor graph, a technique commonly used in commercial robots such as drones and robot vacuums. In this work, we propose Language-Inferred Factor Graph for Instruction Following (LIFGIF), a zero-shot method to ground natural language instructions in such a map. LIFGIF also includes a policy for following natural language navigation instructions in a novel environment while the map is constructed, enabling robust navigation performance in the physical world. To evaluate LIFGIF, we present a new dataset, Object-Centric VLN (OC-VLN), in order to evaluate grounding of object-centric natural language navigation instructions. We compare to two state-of-the-art zero-shot baselines from related tasks, Object Goal Navigation and Vision Language Navigation, to demonstrate that LIFGIF outperforms them across all our evaluation metrics on OCVLN. Finally, we successfully demonstrate the effectiveness of LIFGIF for performing zero-shot object-centric instruction following in the real world on a Boston Dynamics Spot robot.
arxiv情報
著者 | Sonia Raychaudhuri,Duy Ta,Katrina Ashton,Angel X. Chang,Jiuguang Wang,Bernadette Bucher |
発行日 | 2025-05-07 22:19:07+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google