DOZE: A Dataset for Open-Vocabulary Zero-Shot Object Navigation in Dynamic Environments

要約

Zero-Shot Object Navigation (ZSON) では、エージェントが不慣れな環境で目に見えないオブジェクトを自律的に見つけて接近する必要があり、Embedded AI の領域内で特に困難なタスクとして浮上しています。
ZSON アルゴリズムを開発するための既存のデータセットには、動的な障害物、オブジェクト属性の多様性、シーン テキストが考慮されていないため、現実世界の状況との顕著な相違が見られます。
これらの問題に対処するために、私たちは、複雑で動的な現実世界のシナリオを模倣することを目的として、18,000 を超えるタスクを含む 10 個の高忠実度 3D シーンで構成される、動的環境におけるオープンボキャブラリー ゼロショット オブジェクト ナビゲーション (DOZE) 用のデータセットを提案します。
具体的には、DOZE シーンには、複数の動くヒューマノイド障害物、幅広い自由語彙オブジェクト、多様な個別属性オブジェクト、および貴重なテキストのヒントが含まれています。
さらに、エージェントと静止障害物との間の衝突チェックのみを提供する既存のデータセットとは異なり、エージェントと移動障害物との間の衝突を検出する機能を統合することで DOZE を強化します。
この新しい機能により、動的環境におけるエージェントの衝突回避能力の評価が可能になります。
DOZE 上で 4 つの代表的な ZSON メソッドをテストし、ナビゲーション効率、安全性、物体認識精度に関して既存のアプローチに改善の余地が大きいことが明らかになりました。
私たちのデータセットは https://DOZE-Dataset.github.io/ にあります。

要約(オリジナル)

Zero-Shot Object Navigation (ZSON) requires agents to autonomously locate and approach unseen objects in unfamiliar environments and has emerged as a particularly challenging task within the domain of Embodied AI. Existing datasets for developing ZSON algorithms lack consideration of dynamic obstacles, object attribute diversity, and scene texts, thus exhibiting noticeable discrepancy from real-world situations. To address these issues, we propose a Dataset for Open-Vocabulary Zero-Shot Object Navigation in Dynamic Environments (DOZE) that comprises ten high-fidelity 3D scenes with over 18k tasks, aiming to mimic complex, dynamic real-world scenarios. Specifically, DOZE scenes feature multiple moving humanoid obstacles, a wide array of open-vocabulary objects, diverse distinct-attribute objects, and valuable textual hints. Besides, different from existing datasets that only provide collision checking between the agent and static obstacles, we enhance DOZE by integrating capabilities for detecting collisions between the agent and moving obstacles. This novel functionality enables evaluation of the agents’ collision avoidance abilities in dynamic environments. We test four representative ZSON methods on DOZE, revealing substantial room for improvement in existing approaches concerning navigation efficiency, safety, and object recognition accuracy. Our dataset could be found at https://DOZE-Dataset.github.io/.

arxiv情報

著者 Ji Ma,Hongming Dai,Yao Mu,Pengying Wu,Hao Wang,Xiaowei Chi,Yang Fei,Shanghang Zhang,Chang Liu
発行日 2024-02-29 10:03:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO パーマリンク