要約
Visual Object Navigation (VON) のタスクには、特定のシーン内で特定のオブジェクトを見つけるエージェントの機能が含まれます。
VON タスクを正常に実行するには、次の 2 つの必須条件を満たす必要があります。1) ユーザーは、目的のオブジェクトの名前を知っている必要があります。
2) ユーザー指定のオブジェクトは実際にシーン内に存在する必要があります。
これらの条件を満たすために、シミュレーターは事前定義されたオブジェクトの名前と位置をシーンのメタデータに組み込むことができます。
ただし、現実のシナリオでは、これらの条件が常に満たされていることを確認することが困難なことがよくあります。
不慣れな環境にいる人間は、シーン内にどの物体が存在するのか分からなかったり、実際には存在しない物体を誤って指定したりする可能性があります。
これらの課題にもかかわらず、人間は依然としてオブジェクトに対する要求を持っている可能性があり、その要求は、シーン内に同等の方法で存在する他のオブジェクトによって満たされる可能性があります。
そこで、ユーザーの要求をタスクの指示として活用し、指定された要求に一致するオブジェクトをエージェントに見つけるように促す、デマンド駆動型ナビゲーション (DDN) を提案します。
DDN は、事前に定義されたオブジェクト カテゴリや名前だけに依存するのではなく、ユーザーの要求を満たすことに重点を置くことで、VON の厳しい条件を緩和することを目指しています。
我々は、まず大規模な言語モデルから共通知識を抽出することにより、オブジェクトのテキスト属性特徴を取得する方法を提案する。
これらのテキスト属性特徴は、その後、Contrastive Language-Image Pre-training (CLIP) を使用して視覚属性特徴と調整されます。
視覚属性の特徴を事前知識として組み込むことで、ナビゲーション プロセスを強化します。
ProcThor データセットを使用した AI2Thor の実験では、視覚属性機能がエージェントのナビゲーション パフォーマンスを向上させ、VON で一般的に使用されるベースライン メソッドを上回るパフォーマンスを示しました。
要約(オリジナル)
The task of Visual Object Navigation (VON) involves an agent’s ability to locate a particular object within a given scene. In order to successfully accomplish the VON task, two essential conditions must be fulfilled:1) the user must know the name of the desired object; and 2) the user-specified object must actually be present within the scene. To meet these conditions, a simulator can incorporate pre-defined object names and positions into the metadata of the scene. However, in real-world scenarios, it is often challenging to ensure that these conditions are always met. Human in an unfamiliar environment may not know which objects are present in the scene, or they may mistakenly specify an object that is not actually present. Nevertheless, despite these challenges, human may still have a demand for an object, which could potentially be fulfilled by other objects present within the scene in an equivalent manner. Hence, we propose Demand-driven Navigation (DDN), which leverages the user’s demand as the task instruction and prompts the agent to find the object matches the specified demand. DDN aims to relax the stringent conditions of VON by focusing on fulfilling the user’s demand rather than relying solely on predefined object categories or names. We propose a method first acquire textual attribute features of objects by extracting common knowledge from a large language model. These textual attribute features are subsequently aligned with visual attribute features using Contrastive Language-Image Pre-training (CLIP). By incorporating the visual attribute features as prior knowledge, we enhance the navigation process. Experiments on AI2Thor with the ProcThor dataset demonstrate the visual attribute features improve the agent’s navigation performance and outperform the baseline methods commonly used in VON.
arxiv情報
著者 | Hongcheng Wang,Andy Guan Hong Chen,Xiaoqi Li,Mingdong Wu,Hao Dong |
発行日 | 2023-10-23 16:04:02+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google