Visual Intention Grounding for Egocentric Assistants

要約

Visual Groundingは、テキストの説明を画像内のオブジェクトと関連付けます。
従来の方法は、サードパーソン画像入力と名前付きオブジェクトクエリをターゲットにします。
AIアシスタントなどのアプリケーションでは、視点シフト – 入力はエゴセントリックであり、オブジェクトはニーズと意図を通じて暗黙的に参照される場合があります。
このギャップを埋めるために、エゴセントリックな視覚意図の接地のための最初のデータセットである等張性を導入します。
Gointentionは、1)意図しないコンテキストオブジェクトを理解して無視するマルチモーダルLLMSに課題を課し、2)珍しいオブジェクト機能についての理由。
ベンチマークの結果は、現在のモデルがコンテキストオブジェクトを誤認し、エゴセントリックビューでアフォーダンスの理解を欠いていることを示しています。
また、理由から地面(ROG)の指示の調整を提案します。
これにより、通常の説明とエゴセントリックな意図を備えたハイブリッドトレーニングが、鎖でつながれた意図の推論とオブジェクト接地メカニズムを備えています。
ROGは、素朴な説明の接地を維持またはわずかに改善しながら、等しく微調整されたトレーニングとハイブリッドトレーニングを大幅に上回ります。
この進歩により、明示的なオブジェクトクエリと暗黙の人間の意図を処理しながら、エゴセントリックおよびエキソセントリックの視覚入力の統一された視覚的接地が可能になります。

要約(オリジナル)

Visual grounding associates textual descriptions with objects in an image. Conventional methods target third-person image inputs and named object queries. In applications such as AI assistants, the perspective shifts — inputs are egocentric, and objects may be referred to implicitly through needs and intentions. To bridge this gap, we introduce EgoIntention, the first dataset for egocentric visual intention grounding. EgoIntention challenges multimodal LLMs to 1) understand and ignore unintended contextual objects and 2) reason about uncommon object functionalities. Benchmark results show that current models misidentify context objects and lack affordance understanding in egocentric views. We also propose Reason-to-Ground (RoG) instruction tuning; it enables hybrid training with normal descriptions and egocentric intentions with a chained intention reasoning and object grounding mechanism. RoG significantly outperforms naive finetuning and hybrid training on EgoIntention, while maintaining or slightly improving naive description grounding. This advancement enables unified visual grounding for egocentric and exocentric visual inputs while handling explicit object queries and implicit human intentions.

arxiv情報

著者 Pengzhan Sun,Junbin Xiao,Tze Ho Elden Tse,Yicong Li,Arjun Akula,Angela Yao
発行日 2025-04-18 10:54:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク