TriHelper: Zero-Shot Object Navigation with Dynamic Assistance

要約

ゼロショット オブジェクト ナビゲーションとして知られる、追加のトレーニングなしで未知の環境にある特定のオブジェクトに向かってナビゲーションすることは、高レベルの補助情報と戦略的計画を必要とするロボット工学の分野において大きな課題となります。
従来の研究は全体的な解決策に焦点を当てており、衝突、探査効率の低さ、ターゲットの誤認など、エージェントがナビゲーション中に遭遇する特定の課題を見落としてきました。
これらの課題に対処するために、私たちの研究では、衝突、探索、検出という 3 つの主要なナビゲーション課題を通じてエージェントを動的に支援するように設計された新しいフレームワークである TriHelper を提案しています。
具体的には、私たちのフレームワークは、(i) 衝突ヘルパー、(ii) 探索ヘルパー、および (iii) 検出ヘルパーの 3 つの革新的なコンポーネントで構成されています。
これらのコンポーネントは連携して動作し、ナビゲーション プロセス全体を通じてこれらの課題を解決します。
Habitat-Matterport 3D (HM3D) および Gibson データセットの実験では、TriHelper が Zero-Shot オブジェクト ナビゲーションにおいて既存のすべてのベースライン手法を大幅に上回り、優れた成功率と探索効率を示していることが実証されています。
私たちのアブレーション研究は、各ヘルパーがそれぞれの課題に対処する際の有効性をさらに強調し、特にエージェントのナビゲーション能力を強化します。
TriHelper を提案することにより、私たちはオブジェクト ナビゲーション タスクを進める上で新たな視点を提供し、身体化 AI とビジュアルベース ナビゲーションの分野における将来の研究への道を開きます。

要約(オリジナル)

Navigating toward specific objects in unknown environments without additional training, known as Zero-Shot object navigation, poses a significant challenge in the field of robotics, which demands high levels of auxiliary information and strategic planning. Traditional works have focused on holistic solutions, overlooking the specific challenges agents encounter during navigation such as collision, low exploration efficiency, and misidentification of targets. To address these challenges, our work proposes TriHelper, a novel framework designed to assist agents dynamically through three primary navigation challenges: collision, exploration, and detection. Specifically, our framework consists of three innovative components: (i) Collision Helper, (ii) Exploration Helper, and (iii) Detection Helper. These components work collaboratively to solve these challenges throughout the navigation process. Experiments on the Habitat-Matterport 3D (HM3D) and Gibson datasets demonstrate that TriHelper significantly outperforms all existing baseline methods in Zero-Shot object navigation, showcasing superior success rates and exploration efficiency. Our ablation studies further underscore the effectiveness of each helper in addressing their respective challenges, notably enhancing the agent’s navigation capabilities. By proposing TriHelper, we offer a fresh perspective on advancing the object navigation task, paving the way for future research in the domain of Embodied AI and visual-based navigation.

arxiv情報

著者 Lingfeng Zhang,Qiang Zhang,Hao Wang,Erjia Xiao,Zixuan Jiang,Honglei Chen,Renjing Xu
発行日 2024-03-22 14:15:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク