Simultaneous Localization and Affordance Prediction for Tasks in Egocentric Video

要約

視覚言語モデル (VLM) は、さまざまな領域における下流の視覚および自然言語アプリケーションの基礎モデルとして大きな成功を収めています。
ただし、これらのモデルには、エージェントが周囲の 3D 世界によって提供されるアフォーダンスについて推論しなければならないロボット工学アプリケーションに必要な空間理解が欠けています。
我々は、視覚入力とタスクの説明を結び付けてタスクの空間アフォーダンス、つまり人がタスクを達成するために行く場所を予測するために、空間的にローカライズされた自己中心的なビデオでトレーニングするシステムを紹介します。
私たちのアプローチは、一連の位置タグ付き画像上でタスクの説明の類似性をマップするために VLM を使用するベースラインよりも優れていることを示します。
私たちの学習ベースのアプローチでは、タスクがどこで行われるかを予測する際にも、現在の場所でどのようなタスクが発生する可能性があるかを予測する際にも、誤差が少なくなります。
結果として得られるシステムにより、ロボットは自己中心的なセンシングを使用して、自然言語で指定された新しいタスクの物理的な場所に移動できるようになります。

要約(オリジナル)

Vision-Language Models (VLMs) have shown great success as foundational models for downstream vision and natural language applications in a variety of domains. However, these models lack the spatial understanding necessary for robotics applications where the agent must reason about the affordances provided by the 3D world around them. We present a system which trains on spatially-localized egocentric videos in order to connect visual input and task descriptions to predict a task’s spatial affordance, that is the location where a person would go to accomplish the task. We show our approach outperforms the baseline of using a VLM to map similarity of a task’s description over a set of location-tagged images. Our learning-based approach has less error both on predicting where a task may take place and on predicting what tasks are likely to happen at the current location. The resulting system enables robots to use egocentric sensing to navigate to physical locations of novel tasks specified in natural language.

arxiv情報

著者 Zachary Chavis,Hyun Soo Park,Stephen J. Guy
発行日 2024-07-18 18:55:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO パーマリンク