Leveraging Unknown Objects to Construct Labeled-Unlabeled Meta-Relationships for Zero-Shot Object Navigation

要約

ゼロショット オブジェクト ナビゲーション (ZSON) は、トレーニング セットに存在しない目に見えないオブジェクトにエージェントが移動する状況に対処します。
以前の作品は主に、既知のラベルが付いた表示オブジェクトを使用してエージェントをトレーニングし、ラベルのない表示オブジェクトを無視しました。
この論文では、識別可能だがこれまで見落とされていた情報でエージェントの知識ベースを強化するために、ラベルのない目に見えるオブジェクト(本明細書では「未知のオブジェクト」と呼ぶ)をトレーニング手順に導入します。
さらに、ラベルの有無にかかわらずオブジェクト間の関係を利用し、強化されたオブジェクト情報を取得するためのラベルごとのメタ相関モジュール (LWMCM) を提案します。
特に、ラベルのないターゲット オブジェクトの特徴表現を生成するターゲット特徴ジェネレーター (TFG) を提案します。
続いて、ラベルなしオブジェクト識別子 (UOI) モジュールは、ラベルなしのターゲット オブジェクトがカメラによってキャプチャされた現在の観察フレームに表示されるかどうかを評価し、観察されたコンテキストに固有の適応されたターゲットの特徴表現を生成します。
メタコントラスト特徴修飾子 (MCFM) では、観察されていない物体の特徴から遠ざけながら、観察フレーム内の物体の特徴に近づくことによってターゲットの特徴が修正されます。
最後に、メタ オブジェクト グラフ学習器 (MOGL) モジュールを利用して、特徴に基づいてオブジェクト間の関係を計算します。
AI2THOR および RoboTHOR プラットフォームで行われた実験は、提案した手法の有効性を実証しています。

要約(オリジナル)

Zero-shot object navigation (ZSON) addresses situation where an agent navigates to an unseen object that does not present in the training set. Previous works mainly train agent using seen objects with known labels, and ignore the seen objects without labels. In this paper, we introduce seen objects without labels, herein termed as “unknown objects”, into training procedure to enrich the agent’s knowledge base with distinguishable but previously overlooked information. Furthermore, we propose the label-wise meta-correlation module (LWMCM) to harness relationships among objects with and without labels, and obtain enhanced objects information. Specially, we propose target feature generator (TFG) to generate the features representation of the unlabeled target objects. Subsequently, the unlabeled object identifier (UOI) module assesses whether the unlabeled target object appears in the current observation frame captured by the camera and produces an adapted target features representation specific to the observed context. In meta contrastive feature modifier (MCFM), the target features is modified via approaching the features of objects within the observation frame while distancing itself from features of unobserved objects. Finally, the meta object-graph learner (MOGL) module is utilized to calculate the relationships among objects based on the features. Experiments conducted on AI2THOR and RoboTHOR platforms demonstrate the effectiveness of our proposed method.

arxiv情報

著者 Yanwei Zheng,Changrui Li,Chuanlin Lan,Yaling Li,Xiao Zhang,Yifei Zou,Dongxiao Yu,Zhipeng Cai
発行日 2024-05-27 02:39:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.RO パーマリンク