要約
一般的なイベント境界検出(GEBD)は、人間がイベント境界を自然に知覚する瞬間を検出することを目的とした、ビデオ理解における重要でありながら挑戦的なタスクです。
この論文では、GEBDタスクのローカルコンテキストモデリングとグローバル境界デコードアプローチを紹介します。
ローカルコンテキストモデリングサブネットワークは、一般的なイベント境界の多様なパターンを認識するために提案されており、強力なビデオ表現と信頼できる境界の信頼性を生成します。
それらに基づいて、グローバル境界デコードサブネットワークを利用して、グローバルビューからイベント境界をデコードします。
私たちの提案する方法は、Kinetics-GEBDテストセットで85.13%のF1スコアを達成します。これは、ベースラインの方法と比較して22%を超えるF1スコアのブーストを達成します。
コードはhttps://github.com/JackyTown/GEBD_Challenge_CVPR2022で入手できます。
要約(オリジナル)
Generic event boundary detection (GEBD) is an important yet challenging task in video understanding, which aims at detecting the moments where humans naturally perceive event boundaries. In this paper, we present a local context modeling and global boundary decoding approach for GEBD task. Local context modeling sub-network is proposed to perceive diverse patterns of generic event boundaries, and it generates powerful video representations and reliable boundary confidence. Based on them, global boundary decoding sub-network is exploited to decode event boundaries from a global view. Our proposed method achieves 85.13% F1-score on Kinetics-GEBD testing set, which achieves a more than 22% F1-score boost compared to the baseline method. The code is available at https://github.com/JackyTown/GEBD_Challenge_CVPR2022.
arxiv情報
著者 | Jiaqi Tang,Zhaoyang Liu,Jing Tan,Chen Qian,Wayne Wu,Limin Wang |
発行日 | 2022-06-30 13:19:53+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google