Localizing Active Objects from Egocentric Vision with Symbolic World Knowledge

要約

AI エージェントがタスクを実行したり人間を仮想的に支援したりするには、自己中心的な視点からタスクの指示を積極的に実行する機能が不可欠です。
この目標に向けた重要なステップの 1 つは、人間の行動や環境との相互作用の結果として、何をどこに接地するかを正確に指示されずに、大きな状態変化を受ける主要なアクティブ オブジェクトの位置を特定し、追跡することです (例: 地面の「スポンジ」の位置を特定し、追跡する)
説明「「スポンジ」をバケツに浸します。」のビデオ)。
既存の研究は純粋な視覚の観点からこの問題にアプローチしていますが、私たちはテキストのモダリティ(つまり、タスクの指示)と視覚モダリティとの相互作用がどの程度有益であるかを調査します。
具体的には、(1)「変化中のオブジェクト」の役割を学習し、それらを命令から正確に抽出する、(2)
(3) 記述知識を使用してオブジェクトをより確実に認識します。
私たちは大規模言語モデル (LLM) を活用して前述のアクションオブジェクトの知識を抽出し、オブジェクトフレーズと記号知識の共同推論を効果的に実行するオブジェクトごとの集約マスキング手法を設計します。
Ego4D および Epic-Kitchens データセットでフレームワークを評価します。
広範な実験により、提案したフレームワークの有効性が実証され、TREK-150-OPE-Det ローカライゼーション + 追跡タスクのすべての標準メトリクスで > 54% の改善が見られ、TREK-150-OPE のすべての標準メトリクスで > 7% の改善が見られました。
タスクの追跡、および Ego4D SCOD タスクの平均精度 (AP) の > 3% の向上。

要約(オリジナル)

The ability to actively ground task instructions from an egocentric view is crucial for AI agents to accomplish tasks or assist humans virtually. One important step towards this goal is to localize and track key active objects that undergo major state change as a consequence of human actions/interactions to the environment without being told exactly what/where to ground (e.g., localizing and tracking the `sponge` in video from the instruction ‘Dip the `sponge` into the bucket.’). While existing works approach this problem from a pure vision perspective, we investigate to which extent the textual modality (i.e., task instructions) and their interaction with visual modality can be beneficial. Specifically, we propose to improve phrase grounding models’ ability on localizing the active objects by: (1) learning the role of `objects undergoing change` and extracting them accurately from the instructions, (2) leveraging pre- and post-conditions of the objects during actions, and (3) recognizing the objects more robustly with descriptional knowledge. We leverage large language models (LLMs) to extract the aforementioned action-object knowledge, and design a per-object aggregation masking technique to effectively perform joint inference on object phrases and symbolic knowledge. We evaluate our framework on Ego4D and Epic-Kitchens datasets. Extensive experiments demonstrate the effectiveness of our proposed framework, which leads to>54% improvements in all standard metrics on the TREK-150-OPE-Det localization + tracking task, >7% improvements in all standard metrics on the TREK-150-OPE tracking task, and >3% improvements in average precision (AP) on the Ego4D SCOD task.

arxiv情報

著者 Te-Lin Wu,Yu Zhou,Nanyun Peng
発行日 2023-10-23 16:14:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV パーマリンク