‘Where am I?’ Scene Retrieval with Language

要約

身体化された AI への自然言語インターフェイスは、私たちの日常生活の中でますます普及しつつあります。
これにより、ユーザーがエージェントに特定の場所で何らかのタスクを実行するように口頭で指示するなど、身体化されたエージェントとの言語ベースの対話の機会がさらに広がります。
たとえば、「ボウルを冷蔵庫の横の食器棚に戻してください」または「交差点の赤い標識の下で会いましょう」などです。
したがって、自然言語と環境の地図表現の間のインターフェースとなるメソッドが必要です。
この目的を達成するために、オープンセットの自然言語クエリを使用して 3D シーン グラフで表されるシーンを識別できるかどうかを検討します。
私たちはこのタスクを「言語ベースのシーン検索」と定義し、「粗いローカリゼーション」と密接に関連していますが、代わりに、必ずしも大規模な連続マップではなく、ばらばらのシーンのコレクションから一致を検索しています。
Text2SceneGraphMatcher は、テキストの説明とシーン グラフの間の結合埋め込みを学習して一致するかどうかを判断する「シーン取得」パイプラインです。
コード、トレーニング済みモデル、データセットは公開されます。

要約(オリジナル)

Natural language interfaces to embodied AI are becoming more ubiquitous in our daily lives. This opens up further opportunities for language-based interaction with embodied agents, such as a user verbally instructing an agent to execute some task in a specific location. For example, ‘put the bowls back in the cupboard next to the fridge’ or ‘meet me at the intersection under the red sign.’ As such, we need methods that interface between natural language and map representations of the environment. To this end, we explore the question of whether we can use an open-set natural language query to identify a scene represented by a 3D scene graph. We define this task as ‘language-based scene-retrieval’ and it is closely related to ‘coarse-localization,’ but we are instead searching for a match from a collection of disjoint scenes and not necessarily a large-scale continuous map. We present Text2SceneGraphMatcher, a ‘scene-retrieval’ pipeline that learns joint embeddings between text descriptions and scene graphs to determine if they are a match. The code, trained models, and datasets will be made public.

arxiv情報

著者 Jiaqi Chen,Daniel Barath,Iro Armeni,Marc Pollefeys,Hermann Blum
発行日 2024-11-08 14:33:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク