要約
私たちは、エージェントがトレーニングにオブジェクト アノテーションを使用せずに特定のオブジェクトに移動するゼロショット インスタンス ナビゲーションを研究します。
以前のオブジェクト ナビゲーション アプローチでは、事前トレーニングに画像ゴール ナビゲーション (ImageNav) タスク (画像の場所に移動する) を適用し、ビジョン言語モデルを使用してオブジェクトの目標を達成するようにエージェントを転送します。
ただし、これらのアプローチでは、モデルが意味のある意味の調整を学習できないという意味無視の問題が発生します。
本稿では、ナビゲーションエージェントの意味理解能力を向上させるための優先意味学習(PSL)手法を提案する。
具体的には、セマンティック強化された PSL エージェントが提案され、明確なセマンティック監視を示し、厳密に正確なビュー マッチングによる報酬関数を緩和するゴール画像を選択するために、優先順位付けされたセマンティック トレーニング戦略が導入されます。
推論時、意味拡張推論スキームは、トレーニングと同じ目標意味論の粒度レベルを維持するように設計されています。
さらに、一般的な HM3D 環境では、目的がオブジェクト カテゴリによってのみ定義されるオブジェクト ナビゲーション (ObjectNav) タスクとは対照的に、詳細な説明を持つ特定のオブジェクト インスタンスに移動する必要があるインスタンス ナビゲーション (InstanceNav) タスクが提供されます。
当社の PSL エージェントは、成功率の点でゼロショット ObjectNav で以前の最先端のエージェントを 66% 上回っており、新しい InstanceNav タスクでも優れています。
コードは https://anonymous.4open で公開されます。
サイエンス/r/PSL/。
要約(オリジナル)
We study zero-shot instance navigation, in which the agent navigates to a specific object without using object annotations for training. Previous object navigation approaches apply the image-goal navigation (ImageNav) task (go to the location of an image) for pretraining, and transfer the agent to achieve object goals using a vision-language model. However, these approaches lead to issues of semantic neglect, where the model fails to learn meaningful semantic alignments. In this paper, we propose a Prioritized Semantic Learning (PSL) method to improve the semantic understanding ability of navigation agents. Specifically, a semantic-enhanced PSL agent is proposed and a prioritized semantic training strategy is introduced to select goal images that exhibit clear semantic supervision and relax the reward function from strict exact view matching. At inference time, a semantic expansion inference scheme is designed to preserve the same granularity level of the goal-semantic as training. Furthermore, for the popular HM3D environment, we present an Instance Navigation (InstanceNav) task that requires going to a specific object instance with detailed descriptions, as opposed to the Object Navigation (ObjectNav) task where the goal is defined merely by the object category. Our PSL agent outperforms the previous state-of-the-art by 66% on zero-shot ObjectNav in terms of success rate and is also superior on the new InstanceNav task. Code will be released at https://anonymous.4open. science/r/PSL/.
arxiv情報
著者 | Xander Sun,Louis Lau,Hoyard Zhi,Ronghe Qiu,Junwei Liang |
発行日 | 2024-03-18 10:45:50+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google