Efficient Movie Scene Detection using State-Space Transformers

要約

映画のさまざまなシーンを区別する能力は、映画のストーリーを理解する上で非常に重要です。
ただし、映画のシーンを正確に検出することは、非常に長い映画セグメントを推論する能力を必要とするため、多くの場合困難です。
これは、短距離ビデオ分析用に通常設計されているほとんどの既存のビデオ認識モデルとは対照的です。
この作業では、映画のシーンを正確に検出するために、長い映画ビデオの依存関係を効率的にキャプチャできる状態空間変換モデルを提案します。
TranS4mer と呼ばれる私たちのモデルは、構造化された状態空間シーケンス (S4) と自己注意 (A) レイヤーの長所を組み合わせた新しい S4A ビルディング ブロックを使用して構築されています。
ムービー ショットに分割された一連のフレーム (カメラの位置が変化しない中断のない期間) が与えられると、S4A ブロックは最初に自己注意を適用して、短距離のショット内依存関係をキャプチャします。
その後、S4A ブロックの状態空間操作を使用して、長距離ショット間キューを集約します。
エンドツーエンドでトレーニングできる最終的な TranS4mer モデルは、S4A ブロックを次々と複数回スタックすることによって得られます。
私たちが提案する TranS4mer は、MovieNet、BBC、OVSD を含む 3 つの映画シーン検出データセットで従来のすべての方法よりも優れていると同時に、標準の Transformer モデルよりも $2\times$ 高速で、必要な GPU メモリが $3\times$ 少なくて済みます。
コードとモデルをリリースします。

要約(オリジナル)

The ability to distinguish between different movie scenes is critical for understanding the storyline of a movie. However, accurately detecting movie scenes is often challenging as it requires the ability to reason over very long movie segments. This is in contrast to most existing video recognition models, which are typically designed for short-range video analysis. This work proposes a State-Space Transformer model that can efficiently capture dependencies in long movie videos for accurate movie scene detection. Our model, dubbed TranS4mer, is built using a novel S4A building block, which combines the strengths of structured state-space sequence (S4) and self-attention (A) layers. Given a sequence of frames divided into movie shots (uninterrupted periods where the camera position does not change), the S4A block first applies self-attention to capture short-range intra-shot dependencies. Afterward, the state-space operation in the S4A block is used to aggregate long-range inter-shot cues. The final TranS4mer model, which can be trained end-to-end, is obtained by stacking the S4A blocks one after the other multiple times. Our proposed TranS4mer outperforms all prior methods in three movie scene detection datasets, including MovieNet, BBC, and OVSD, while also being $2\times$ faster and requiring $3\times$ less GPU memory than standard Transformer models. We will release our code and models.

arxiv情報

著者 Md Mohaiminul Islam,Mahmudul Hasan,Kishan Shamsundar Athrey,Tony Braskich,Gedas Bertasius
発行日 2022-12-29 18:57:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク