要約
未知の環境におけるオブジェクトナビゲーションは、実世界のアプリケーションに具現化エージェントを導入する上で極めて重要である。大規模なシーンデータセット、より高速なシミュレータ、より強力なモデルにより、我々は大きな進歩を目の当たりにしてきたが、先行研究は主に限られたシーンタイプとターゲットオブジェクトに焦点を当てている。本論文では、多数のシーンタイプにおける多様なターゲットオブジェクトへのナビゲートという新しいタスクを研究する。この問題のベンチマークとして、81の異なるタイプにわたる4,614のシーンを含む大規模なシーンデータセットDivSceneを提示する。このデータセットを用いて、模倣学習により大型視覚言語モデル(LVLM)を微調整することで、エンドツーエンドの具現化エージェントNatVLMを構築する。LVLMは、環境からの過去の観測を取り込み、次の行動を生成するように訓練される。また、LVLMをチューニングする際に、より良いパフォーマンスを得るために、行動予測のCoT説明トレースを導入する。我々の広範な実験により、BFSプランナにより構築された最短経路を模倣学習することで、人間の監視なしに高性能なLVLMベースのエージェントを構築できることがわかった。我々のエージェントはGPT-4oを20%以上上回る成功率を達成した。また、我々のエージェントの汎化能力を示す様々な分析を行う。
要約(オリジナル)
Object navigation in unknown environments is crucial for deploying embodied agents in real-world applications. While we have witnessed huge progress due to large-scale scene datasets, faster simulators, and stronger models, previous studies mainly focus on limited scene types and target objects. In this paper, we study a new task of navigating to diverse target objects in a large number of scene types. To benchmark the problem, we present a large-scale scene dataset, DivScene, which contains 4,614 scenes across 81 different types. With the dataset, we build an end-to-end embodied agent, NatVLM, by fine-tuning a Large Vision Language Model (LVLM) through imitation learning. The LVLM is trained to take previous observations from the environment and generate the next actions. We also introduce CoT explanation traces of the action prediction for better performance when tuning LVLMs. Our extensive experiments find that we can build a performant LVLM-based agent through imitation learning on the shortest paths constructed by a BFS planner without any human supervision. Our agent achieves a success rate that surpasses GPT-4o by over 20%. Meanwhile, we carry out various analyses showing the generalization ability of our agent.
arxiv情報
著者 | Zhaowei Wang,Hongming Zhang,Tianqing Fang,Ye Tian,Yue Yang,Kaixin Ma,Xiaoman Pan,Yangqiu Song,Dong Yu |
発行日 | 2024-10-03 17:49:28+00:00 |
arxivサイト | arxiv_id(pdf) |