要約
意味的に斬新なターゲットと組み合わせた未知のオープンエンド環境のゼロショットオブジェクトナビゲーション(ZSON)は、高次元の暗黙的なシーン情報の無視と長距離ターゲット検索タスクの無視により、パフォーマンスの大幅な低下に苦しむことがよくあります。
これに対処するために、環境属性MAP(EAM)およびMLLM階層推論モジュール(MHR)を備えたアクティブオブジェクトナビゲーションフレームワークを提案し、成功率と効率を向上させました。
EAMは、スバートとの観察された環境を推論し、オブジェクトルームの相関と領域の隣接の根底にある人間の空間の規則性を利用して、拡散していない環境を予測することによって構築されます。
MHRはEAMに触発され、フロンティア探査の意思決定を実行し、パス効率を改善するために長距離シナリオで回路の軌跡を避けます。
実験結果は、EAMモジュールがmp3Dデータセットで64.5 \%シーンマッピングの精度を達成し、ナビゲーションタスクはそれぞれHM3DおよびMP3Dベンチマークで28.4 \%および26.3 \%のSPLを達成することを示しています。
要約(オリジナル)
The zero-shot object navigation (ZSON) in unknown open-ended environments coupled with semantically novel target often suffers from the significant decline in performance due to the neglect of high-dimensional implicit scene information and the long-range target searching task. To address this, we proposed an active object navigation framework with Environmental Attributes Map (EAM) and MLLM Hierarchical Reasoning module (MHR) to improve its success rate and efficiency. EAM is constructed by reasoning observed environments with SBERT and predicting unobserved ones with Diffusion, utilizing human space regularities that underlie object-room correlations and area adjacencies. MHR is inspired by EAM to perform frontier exploration decision-making, avoiding the circuitous trajectories in long-range scenarios to improve path efficiency. Experimental results demonstrate that the EAM module achieves 64.5\% scene mapping accuracy on MP3D dataset, while the navigation task attains SPLs of 28.4\% and 26.3\% on HM3D and MP3D benchmarks respectively – representing absolute improvements of 21.4\% and 46.0\% over baseline methods.
arxiv情報
著者 | Chongshang Yan,Jiaxuan He,Delun Li,Yi Yang,Wenjie Song |
発行日 | 2025-06-06 09:08:40+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google