Structured Context Transformer for Generic Event Boundary Detection

要約

Generic Event Boundary Detection (GEBD) は、人間が自然にイベントの境界として認識する瞬間を検出することを目的としている。本論文では、GEBDタスクを解決するために、エンドツーエンドで学習可能なStructured Context Transformer(またはSC-Transformer)を紹介する。具体的には、各ビデオフレームの特徴を抽出するために、バックボーン畳み込みニューラルネットワーク(CNN)を使用する。各フレームの時間的コンテキスト情報を捉えるために、入力フレーム列を再分割することで構造コンテキスト変換器(SC-Transformer)を設計する。SC-Transformerの全体的な計算量は映像の長さに比例することに注意。その後、フレーム間の差異を捉えるために、グループの類似性が計算される。次に、グループ化された類似性マップに基づいてイベント境界を決定するために、軽量の完全畳み込みネットワークが使用される。境界の注釈の曖昧さを改善するために、ガウスカーネルを採用して、さらに精度を高めるために、真実のイベント境界の前処理を行う。Kinetics-GEBDとTAPOSという難易度の高いデータセットに対して行った広範な実験により、提案手法の有効性が最先端の手法と比較して実証されている。

要約(オリジナル)

Generic Event Boundary Detection (GEBD) aims to detect moments where humans naturally perceive as event boundaries. In this paper, we present Structured Context Transformer (or SC-Transformer) to solve the GEBD task, which can be trained in an end-to-end fashion. Specifically, we use the backbone convolutional neural network (CNN) to extract the features of each video frame. To capture temporal context information of each frame, we design the structure context transformer (SC-Transformer) by re-partitioning input frame sequence. Note that, the overall computation complexity of SC-Transformer is linear to the video length. After that, the group similarities are computed to capture the differences between frames. Then, a lightweight fully convolutional network is used to determine the event boundaries based on the grouped similarity maps. To remedy the ambiguities of boundary annotations, the Gaussian kernel is adopted to preprocess the ground-truth event boundaries to further boost the accuracy. Extensive experiments conducted on the challenging Kinetics-GEBD and TAPOS datasets demonstrate the effectiveness of the proposed method compared to the state-of-the-art methods.

arxiv情報

著者 Congcong Li,Xinyao Wang,Dexiang Hong,Yufei Wang,Libo Zhang,Tiejian Luo,Longyin Wen
発行日 2022-06-07 03:00:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク