Trailers12k: Evaluating Transfer Learning for Movie Trailer Genre Classification

要約

転移学習は、さまざまなコンピューター ビジョンの問題の基礎となります。画像解析タスクについて広く研究されています。
ただし、ビデオ分析に関する文献は少なく、主に ImageNet から学習した表現を人間の行動認識タスクに転送することに重点が置かれています。
この論文では、Multi-label Movie Trailer Genre Classification (MTGC) の転移学習について説明します。
特に、手動でキュレーションされた新しい映画予告編データセットである Trailers12k} を紹介し、ImageNet や Kinetics から学習した空間的および時空間表現の Trailers12k MTGC への転送可能性を評価します。
ソースタスクとターゲットタスクの間の時空間構造のギャップを減らし、転送可能性を向上させるために、ショット検出を実行して予告編を相関性の高いクリップにセグメント化する方法を提案します。
セグメンテーション戦略、フレームレート、入力ビデオの拡張、時空間モデリングなど、転送可能性に影響を与えるさまざまな側面を研究しています。
私たちの結果は、ImageNet または Kinetics のいずれかで学習した表現が Trailers12k に比較的転送可能であることを示していますが、それらを組み合わせて分類パフォーマンスを向上させることができる補完的な情報を提供します。
同様の数のパラメーターと FLOPS を持つ Transformers は、ConvNets よりも優れた転送可能性ベースを提供します。
それにもかかわらず、軽量の ConvNets を使用して競争力のあるパフォーマンスを達成できるため、リソースの少ない環境にとって魅力的なオプションになります。

要約(オリジナル)

Transfer learning is a cornerstone for a wide range of computer vision problems.It has been broadly studied for image analysis tasks. However, literature for video analysis is scarce and has been mainly focused on transferring representations learned from ImageNet to human action recognition tasks. In this paper, we study transfer learning for Multi-label Movie Trailer Genre Classification (MTGC). In particular, we introduce Trailers12k}, a new manually-curated movie trailer dataset and evaluate the transferability of spatial and spatio-temporal representations learned from ImageNet and/or Kinetics to Trailers12k MTGC. In order to reduce the spatio-temporal structure gap between the source and target tasks and improve transferability, we propose a method that performs shot detection so as to segment the trailer into highly correlated clips. We study different aspects that influence transferability, such as segmentation strategy, frame rate, input video extension, and spatio-temporal modeling. Our results demonstrate that representations learned on either ImageNet or Kinetics are comparatively transferable to Trailers12k, although they provide complementary information that can be combined to improve classification performance. Having a similar number of parameters and FLOPS, Transformers provide a better transferability base than ConvNets. Nevertheless, competitive performance can be achieved using lightweight ConvNets, becoming an attractive option for low-resource environments.

arxiv情報

著者 Ricardo Montalvo-Lezama,Berenice Montalvo-Lezama,Gibran Fuentes-Pineda
発行日 2022-10-14 17:27:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク