Zero-Shot Object Goal Visual Navigation With Class-Independent Relationship Network

要約

この論文では、ゼロショット オブジェクト ゴールの視覚ナビゲーション問題を調査します。
オブジェクト目標の視覚ナビゲーション タスクでは、エージェントは自己中心的な視覚入力からナビゲーション ターゲットを特定する必要があります。
「ゼロショット」とは、エージェントが見つける必要があるターゲットがトレーニング フェーズ中にトレーニングされていないことを意味します。
トレーニング中のナビゲーション能力とターゲット特徴の結合の問題に対処するために、クラス独立関係ネットワーク (CIRN) を提案します。
この方法では、ターゲット検出情報とターゲットとナビゲーション ターゲット間の相対的な意味的類似性を組み合わせ、類似性ランキングに基づいてまったく新しい状態表現を構築します。この状態表現にはターゲットの特徴や環境の特徴は含まれず、エージェントのナビゲーション能力を効果的に切り離します。
ターゲットの機能。
また、グラフ畳み込みネットワーク (GCN) を使用して、異なるオブジェクト間の関係をそれらの類似性に基づいて学習します。
テスト中、私たちのアプローチは、さまざまなターゲットや環境でのゼロショット ナビゲーション タスクなど、強力な一般化機能を実証します。
AI2-THOR 仮想環境での広範な実験を通じて、私たちの方法は、ゼロショット オブジェクト ゴール視覚ナビゲーション タスクにおける現在の最先端のアプローチを上回りました。
さらに、より困難なクロスターゲットおよびクロスシーン設定で実験を実施し、この方法の堅牢性と一般化能力をさらに検証しました。
コードは https://github.com/SmartAndCleverRobot/ICRA-CIRN から入手できます。

要約(オリジナル)

This paper investigates the zero-shot object goal visual navigation problem. In the object goal visual navigation task, the agent needs to locate navigation targets from its egocentric visual input. ‘Zero-shot’ means that the target the agent needs to find is not trained during the training phase. To address the issue of coupling navigation ability with target features during training, we propose the Class-Independent Relationship Network (CIRN). This method combines target detection information with the relative semantic similarity between the target and the navigation target, and constructs a brand new state representation based on similarity ranking, this state representation does not include target feature or environment feature, effectively decoupling the agent’s navigation ability from target features. And a Graph Convolutional Network (GCN) is employed to learn the relationships between different objects based on their similarities. During testing, our approach demonstrates strong generalization capabilities, including zero-shot navigation tasks with different targets and environments. Through extensive experiments in the AI2-THOR virtual environment, our method outperforms the current state-of-the-art approaches in the zero-shot object goal visual navigation task. Furthermore, we conducted experiments in more challenging cross-target and cross-scene settings, which further validate the robustness and generalization ability of our method. Our code is available at: https://github.com/SmartAndCleverRobot/ICRA-CIRN.

arxiv情報

著者 Xinting Li,Shiguang Zhang,Yue LU,Kerry Dang,Lingyan Ran
発行日 2024-03-14 14:40:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO, I.2.10 パーマリンク