要約
過去数年間、屋内環境のオブジェクトへの視覚的ナビゲーションへの研究の関心は大幅に増加しています。
この成長は、GibsonやMatterport3dなどの写真と現実的なシミュレーション環境での大きなナビゲーションデータセットの最近の利用可能性に起因する可能性があります。
ただし、これらのデータセットでサポートされているナビゲーションタスクは、多くの場合、取得時に環境に存在するオブジェクトに制限されます。
また、ターゲットオブジェクトが類似のオブジェクトと簡単に混同され、環境内の複数の場所にあるユーザー固有のインスタンスである現実的なシナリオを説明できません。
これらの制限に対処するために、具体化されたエージェントが同じカテゴリの複数のインスタンスで区別することにより、特定の個人オブジェクトの位置を特定して到達するように任されるパーソナライズされたインスタンスベースのナビゲーション(PIN)の新しいタスクを提案します。
タスクには、追加の3Dオブジェクトで補強された写真リアルなシーンで構成される専用の新しいデータセットが付随しています。
各エピソードでは、ターゲットオブジェクトが2つのモダリティを使用してエージェントに提示されます。ニュートラルな背景上の視覚的参照画像のセットと手動で注釈付きのテキスト説明です。
包括的な評価と分析を通じて、PINタスクの課題と、モジュール式およびエンドツーエンドのエージェントを考慮して、オブジェクト駆動型ナビゲーション向けに設計された現在利用可能な方法のパフォーマンスと欠点を紹介します。
要約(オリジナル)
In the last years, the research interest in visual navigation towards objects in indoor environments has grown significantly. This growth can be attributed to the recent availability of large navigation datasets in photo-realistic simulated environments, like Gibson and Matterport3D. However, the navigation tasks supported by these datasets are often restricted to the objects present in the environment at acquisition time. Also, they fail to account for the realistic scenario in which the target object is a user-specific instance that can be easily confused with similar objects and may be found in multiple locations within the environment. To address these limitations, we propose a new task denominated Personalized Instance-based Navigation (PIN), in which an embodied agent is tasked with locating and reaching a specific personal object by distinguishing it among multiple instances of the same category. The task is accompanied by PInNED, a dedicated new dataset composed of photo-realistic scenes augmented with additional 3D objects. In each episode, the target object is presented to the agent using two modalities: a set of visual reference images on a neutral background and manually annotated textual descriptions. Through comprehensive evaluations and analyses, we showcase the challenges of the PIN task as well as the performance and shortcomings of currently available methods designed for object-driven navigation, considering modular and end-to-end agents.
arxiv情報
著者 | Luca Barsellotti,Roberto Bigazzi,Marcella Cornia,Lorenzo Baraldi,Rita Cucchiara |
発行日 | 2025-02-19 17:31:08+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google