Referring Atomic Video Action Recognition

要約

私たちは、Referring Atomic Video Action Recognition (RAVAR) と呼ばれる新しいタスクを導入します。これは、テキストによる説明とその人のビデオ データに基づいて、特定の人の原子的なアクションを識別することを目的としています。
このタスクは、存在するすべての個人に対して予測が配信される従来の行動認識および位置特定とは異なります。
対照的に、私たちはテキストに導かれて、特定の個人の正確な原子的動作を認識することに重点を置いています。
このタスクを調査するために、手動で注釈が付けられた個人のテキスト説明を含む 36,630 個のインスタンスを含む RefAVA データセットを提示します。
強力な初期ベンチマークを確立するために、アトミック アクション ローカリゼーション、ビデオ質問応答、テキストビデオ検索など、さまざまなドメインからのベースラインを実装して検証します。
これらの既存の手法は RAVAR ではパフォーマンスが劣るため、RefAtomNet を導入します。これは、RAVAR の固有の課題に特化した新しいクロスストリームの注意駆動型手法です。つまり、ターゲットとなる個人に合わせてテキストの参照表現を解釈する必要があり、この参照を利用して空間的情報をガイドする必要があります。
ローカリゼーションと、参照者のアトミックアクションの予測を収集します。
主な要素は次のとおりです。(1) ビデオ、テキスト、および新しい位置セマンティック ストリームを接続するマルチストリーム アーキテクチャ、(2) これらのストリーム間で最も関連性の高い情報を増幅するクロスストリーム エージェント アテンション フュージョンおよびエージェント トークン フュージョン
RAVAR の標準的な注意ベースのフュージョンを常に上回っています。
広範な実験により、記述された個人の行動を認識するための RefAtomNet とその構成要素の有効性が実証されています。
データセットとコードは https://github.com/KPeng9510/RAVAR で公開されます。

要約(オリジナル)

We introduce a new task called Referring Atomic Video Action Recognition (RAVAR), aimed at identifying atomic actions of a particular person based on a textual description and the video data of this person. This task differs from traditional action recognition and localization, where predictions are delivered for all present individuals. In contrast, we focus on recognizing the correct atomic action of a specific individual, guided by text. To explore this task, we present the RefAVA dataset, containing 36,630 instances with manually annotated textual descriptions of the individuals. To establish a strong initial benchmark, we implement and validate baselines from various domains, e.g., atomic action localization, video question answering, and text-video retrieval. Since these existing methods underperform on RAVAR, we introduce RefAtomNet — a novel cross-stream attention-driven method specialized for the unique challenges of RAVAR: the need to interpret a textual referring expression for the targeted individual, utilize this reference to guide the spatial localization and harvest the prediction of the atomic actions for the referring person. The key ingredients are: (1) a multi-stream architecture that connects video, text, and a new location-semantic stream, and (2) cross-stream agent attention fusion and agent token fusion which amplify the most relevant information across these streams and consistently surpasses standard attention-based fusion on RAVAR. Extensive experiments demonstrate the effectiveness of RefAtomNet and its building blocks for recognizing the action of the described individual. The dataset and code will be made publicly available at https://github.com/KPeng9510/RAVAR.

arxiv情報

著者 Kunyu Peng,Jia Fu,Kailun Yang,Di Wen,Yufan Chen,Ruiping Liu,Junwei Zheng,Jiaming Zhang,M. Saquib Sarfraz,Rainer Stiefelhagen,Alina Roitberg
発行日 2024-07-02 01:13:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO, eess.IV パーマリンク