要約
ビデオイベント抽出は、ビデオから顕著なイベントを検出し、各イベントの引数とその意味的な役割を特定することを目的としている。既存の手法は、各フレームの全体的なビジュアルシーンを捉えることに重点を置いており、きめの細かい引数レベルの情報は無視されている。我々は、イベントを状態の変化として定義することにヒントを得て、ビデオイベントの抽出に最も有益な証拠を提供すると期待される、全ての関与する引数の視覚的状態の変化を追跡することにより、ビデオイベントを検出する新しいフレームワークを提案する。引数の視覚的な状態変化を捉えるために、我々はそれらをオブジェクト内のピクセルの変化、オブジェクトの変位、複数の引数間の相互作用に分解する。さらに、これらの変化をそれぞれ符号化し、追跡するために、オブジェクト状態埋め込み、オブジェクト動き認識埋め込み、引数相互作用埋め込みを提案する。様々なビデオイベント抽出タスクに関する実験により、最先端のモデルと比較して、大幅な改善を示す。特に、動詞の分類では、ビデオ状況認識におけるF1@5で3.49%の絶対利得(19.53%の相対利得)を達成する。
要約(オリジナル)
Video event extraction aims to detect salient events from a video and identify the arguments for each event as well as their semantic roles. Existing methods focus on capturing the overall visual scene of each frame, ignoring fine-grained argument-level information. Inspired by the definition of events as changes of states, we propose a novel framework to detect video events by tracking the changes in the visual states of all involved arguments, which are expected to provide the most informative evidence for the extraction of video events. In order to capture the visual state changes of arguments, we decompose them into changes in pixels within objects, displacements of objects, and interactions among multiple arguments. We further propose Object State Embedding, Object Motion-aware Embedding and Argument Interaction Embedding to encode and track these changes respectively. Experiments on various video event extraction tasks demonstrate significant improvements compared to state-of-the-art models. In particular, on verb classification, we achieve 3.49% absolute gains (19.53% relative gains) in F1@5 on Video Situation Recognition.
arxiv情報
著者 | Guang Yang,Manling Li,Xudong Lin,Jiajie Zhang,Shih-Fu Chang,Heng Ji |
発行日 | 2022-11-03 13:12:49+00:00 |
arxivサイト | arxiv_id(pdf) |