Discovering Novel Actions from Open World Egocentric Videos with Object-Grounded Visual Commonsense Reasoning

要約

オープンワールド、すなわち対象となる「ラベル」が未知の環境においてラベルを推論することを学習することは、自律性を達成するための重要な特徴である。膨大なデータで事前に訓練された基礎モデルは、特にゼロショット推論において、プロンプトによる顕著な汎化能力を示してきた。しかし、その性能はターゲットラベルの探索空間、すなわちプロンプトで提供される候補ラベルの正しさに制限される。このターゲット探索空間は未知であったり、オープンワールドでは例外的に大きかったりするため、性能が大きく制限される。この困難な問題に取り組むために、我々はALGO-Action Learning with Grounded Object recognitionと呼ばれる、大規模な知識ベースに格納された記号的知識を用いて、限られた監視下で自心ビデオ内の活動を推測する、2段階の神経記号的フレームワークを提案する。このフレームワークは、大規模な知識ベースに格納されたシンボリックな知識を用いて、限られた監視下で自己中心的なビデオ内の活動を推論する。第二に、事前の常識的知識によって駆動され、エネルギーに基づく記号的パターン理論の枠組みを通して、もっともらしい活動を発見し、知識ベースの行動(動詞)概念を映像に根拠づけるように学習する。公開されている4つのデータセット(EPIC-Kitchens、GTEA Gaze、GTEA Gaze Plus、Charades-Ego)を用いた広範な実験により、オープンワールド活動推論におけるALGOの性能を実証する。また、ALGOがゼロショット推論に拡張可能であることを示し、Charades-Egoデータセットでその競争力を実証する。

要約(オリジナル)

Learning to infer labels in an open world, i.e., in an environment where the target “labels” are unknown, is an important characteristic for achieving autonomy. Foundation models, pre-trained on enormous amounts of data, have shown remarkable generalization skills through prompting, particularly in zero-shot inference. However, their performance is restricted to the correctness of the target label’s search space, i.e., candidate labels provided in the prompt. This target search space can be unknown or exceptionally large in an open world, severely restricting their performance. To tackle this challenging problem, we propose a two-step, neuro-symbolic framework called ALGO – Action Learning with Grounded Object recognition that uses symbolic knowledge stored in large-scale knowledge bases to infer activities in egocentric videos with limited supervision. First, we propose a neuro-symbolic prompting approach that uses object-centric vision-language models as a noisy oracle to ground objects in the video through evidence-based reasoning. Second, driven by prior commonsense knowledge, we discover plausible activities through an energy-based symbolic pattern theory framework and learn to ground knowledge-based action (verb) concepts in the video. Extensive experiments on four publicly available datasets (EPIC-Kitchens, GTEA Gaze, GTEA Gaze Plus, and Charades-Ego) demonstrate its performance on open-world activity inference. We also show that ALGO can be extended to zero-shot inference and demonstrate its competitive performance on the Charades-Ego dataset.

arxiv情報

著者 Sanjoy Kundu,Shubham Trehan,Sathyanarayanan N. Aakur
発行日 2024-05-03 14:01:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク