要約
Vision-Language Models(VLM)は、さまざまなドメインでの下流の視力および自然言語アプリケーションの基礎モデルとして大きな成功を示しています。
ただし、これらのモデルは、イメージプレーンに現在表示されているオブジェクトやアクションをめぐる推論に限定されています。
VLMに空間的拡張を提示します。これは、空間的に局所的なエゴセントリックビデオデモンストレーションを活用して、空間的タスクフォーダンスを理解することにより、つまり、エージェントが物理的に行われるためには、エージェントの視聴者に関連するタスクの局在化を理解することにより、2つの方法でVLMを増強します。
アプローチは、VLMを使用して、ロケーションタグ付き画像のセットにタスクの説明の類似性をマッピングするベースラインを上回ることを示しています。
私たちのアプローチは、タスクがどこで行われるかを予測することと、現在の場所でどのタスクが発生する可能性があるかを予測することで、エラーが少なくなります。
結果として生じる表現により、ロボットは自己中心的なセンシングを使用して、自然言語で指定された新しいタスクに対して関心のある物理的領域をナビゲートすることができます。
要約(オリジナル)
Vision-Language Models (VLMs) have shown great success as foundational models for downstream vision and natural language applications in a variety of domains. However, these models are limited to reasoning over objects and actions currently visible on the image plane. We present a spatial extension to the VLM, which leverages spatially-localized egocentric video demonstrations to augment VLMs in two ways — through understanding spatial task-affordances, i.e. where an agent must be for the task to physically take place, and the localization of that task relative to the egocentric viewer. We show our approach outperforms the baseline of using a VLM to map similarity of a task’s description over a set of location-tagged images. Our approach has less error both on predicting where a task may take place and on predicting what tasks are likely to happen at the current location. The resulting representation will enable robots to use egocentric sensing to navigate to, or around, physical regions of interest for novel tasks specified in natural language.
arxiv情報
著者 | Zachary Chavis,Hyun Soo Park,Stephen J. Guy |
発行日 | 2025-06-12 05:52:34+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google