要約
この論文では、ImageNet の空間表現と Kinetics の時空間表現のマルチラベル映画予告編ジャンル分類 (MTGC) への転送可能性を調べます。
特に、ImageNet および Kinetics で事前トレーニングされた ConvNet および Transformer モデルの、10 の異なるジャンルと関連するメタデータでラベル付けされた 12,000 本のビデオで構成される手動で精選された新しい映画予告編データセットである Trailers12k への転送可能性の広範な評価を提示します。
フレームレート、入力ビデオの拡張、時空間モデリングなど、転送可能性に影響を与える可能性のあるさまざまな側面を分析します。
ImageNet/Kinetics と Trailers12k の間の時空間構造のギャップを減らすために、Dual Image and Video Transformer Architecture (DIViTA) を提案します。これは、ショット検出を実行してトレーラーを相関性の高いクリップにセグメント化し、よりまとまりのある入力を提供します。
事前トレーニング済みのバックボーンと転送可能性の向上 (ImageNet で 1.83%、Kinetics で 3.75% の増加)。
私たちの結果は、ImageNet または Kinetics で学習した表現が Trailers12k に比較的転送可能であることを示しています。
さらに、両方のデータセットは、組み合わせて分類パフォーマンスを向上させることができる補完的な情報を提供します (上位の単一の事前トレーニングと比較して 2.91% の向上)。
興味深いことに、事前トレーニング済みのバックボーンとして軽量の ConvNet を使用すると、最上位の Transformer と比較して分類パフォーマンスが 3.46% しか低下しませんでしたが、パラメーターの 11.82% と FLOPS の 0.81% しか必要としませんでした。
要約(オリジナル)
In this paper, we study the transferability of ImageNet spatial and Kinetics spatio-temporal representations to multi-label Movie Trailer Genre Classification (MTGC). In particular, we present an extensive evaluation of the transferability of ConvNet and Transformer models pretrained on ImageNet and Kinetics to Trailers12k, a new manually-curated movie trailer dataset composed of 12,000 videos labeled with 10 different genres and associated metadata. We analyze different aspects that can influence transferability, such as frame rate, input video extension, and spatio-temporal modeling. In order to reduce the spatio-temporal structure gap between ImageNet/Kinetics and Trailers12k, we propose Dual Image and Video Transformer Architecture (DIViTA), which performs shot detection so as to segment the trailer into highly correlated clips, providing a more cohesive input for pretrained backbones and improving transferability (a 1.83% increase for ImageNet and 3.75% for Kinetics). Our results demonstrate that representations learned on either ImageNet or Kinetics are comparatively transferable to Trailers12k. Moreover, both datasets provide complementary information that can be combined to improve classification performance (a 2.91% gain compared to the top single pretraining). Interestingly, using lightweight ConvNets as pretrained backbones resulted in only a 3.46% drop in classification performance compared with the top Transformer while requiring only 11.82% of its parameters and 0.81% of its FLOPS.
arxiv情報
著者 | Ricardo Montalvo-Lezama,Berenice Montalvo-Lezama,Gibran Fuentes-Pineda |
発行日 | 2023-03-29 15:55:03+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google