要約
Generic Event Boundary Detection (GEBD) のタスクは、一般的で分類のないイベント境界として人間が自然に認識するビデオ内の瞬間を検出することを目的としています。
ビデオで動的に変化する時間的および空間的変化をモデル化すると、GEBD を解決するのが困難な問題になります。
既存のアプローチには、アーキテクチャ設計の選択に関して非常に複雑で洗練されたパイプラインが含まれているため、より単純で単純なアプローチが必要になります。
この作業では、シンプルで効果的な自己教師あり方法を再検討することでこの問題に対処し、微分可能なモーション機能学習モジュールでそれを強化して、GEBD タスクの空間的および時間的多様性に取り組みます。
挑戦的なKinetics-GEBDおよびTAPOSデータセットで広範な実験を行い、提案されたアプローチの有効性を他の自己監視型の最先端の方法と比較して実証します。
また、この単純な自己教師付きアプローチが、明示的なモーション固有の口実タスクなしでモーション機能を学習することも示します。
要約(オリジナル)
The task of Generic Event Boundary Detection (GEBD) aims to detect moments in videos that are naturally perceived by humans as generic and taxonomy-free event boundaries. Modeling the dynamically evolving temporal and spatial changes in a video makes GEBD a difficult problem to solve. Existing approaches involve very complex and sophisticated pipelines in terms of architectural design choices, hence creating a need for more straightforward and simplified approaches. In this work, we address this issue by revisiting a simple and effective self-supervised method and augment it with a differentiable motion feature learning module to tackle the spatial and temporal diversities in the GEBD task. We perform extensive experiments on the challenging Kinetics-GEBD and TAPOS datasets to demonstrate the efficacy of the proposed approach compared to the other self-supervised state-of-the-art methods. We also show that this simple self-supervised approach learns motion features without any explicit motion-specific pretext task.
arxiv情報
| 著者 | Ayush K. Rai,Tarun Krishna,Julia Dietlmeier,Kevin McGuinness,Alan F. Smeaton,Noel E. O’Connor | 
| 発行日 | 2022-10-12 09:59:27+00:00 | 
| arxivサイト | arxiv_id(pdf) | 
提供元, 利用サービス
arxiv.jp, Google
