Transfer-learning for video classification: Video Swin Transformer on multiple domains

要約

コンピューター ビジョン コミュニティは、画像とビデオの両方のタスクについて、畳み込みベースから純粋な変換器アーキテクチャへの移行を見てきました。
これらのタスクのためにトランスフォーマーをゼロからトレーニングするには、通常、大量のデータと計算リソースが必要です。
Video Swin Transformer (VST) は、ビデオ分類用に開発された純粋なトランスフォーマー モデルであり、複数のデータセットで最先端の精度と効率を実現します。
このホワイト ペーパーでは、VST がドメイン外の設定で使用できるほど十分に一般化されているかどうかを理解することを目的としています。
FCVID と Something-Something という 2 つの大規模なデータセットで、Kinetics-400 の転移学習アプローチを使用して VST のパフォーマンスを調査しました。
次に、結果を分析して、VST が最も失敗する場所と、転移学習アプローチが実行可能なシナリオを理解します。
私たちの実験では、モデル全体を再トレーニングすることなく、FCVID で 85\% のトップ 1 精度が示されました。これは、データセットの最先端と同等であり、Something-Something で 21\% の精度です。
実験はまた、モデルの設計上の選択の結果であると思われるビデオの長さが増加すると、VST のパフォーマンスが平均して低下することを示唆しています。
結果から、ターゲット クラスがモデルのトレーニングに使用されたクラスと同じタイプからのものである場合、VST は再トレーニングなしでドメイン外のビデオを分類するのに十分なほど一般化されていると結論付けています。
この効果は、Kinetics-400 から FCVID への転移学習を実行したときに観察されました。ほとんどのデータセットは主にオブジェクトを対象としています。
一方、クラスが同じタイプではない場合、転移学習アプローチ後の精度は低くなることが予想されます。
クラスが主にオブジェクトを表す Kinetics-400 から、クラスが主にアクションを表す Something-Something への転移学習を実行したときに、この効果が観察されました。

要約(オリジナル)

The computer vision community has seen a shift from convolutional-based to pure transformer architectures for both image and video tasks. Training a transformer from zero for these tasks usually requires a lot of data and computational resources. Video Swin Transformer (VST) is a pure-transformer model developed for video classification which achieves state-of-the-art results in accuracy and efficiency on several datasets. In this paper, we aim to understand if VST generalizes well enough to be used in an out-of-domain setting. We study the performance of VST on two large-scale datasets, namely FCVID and Something-Something using a transfer learning approach from Kinetics-400, which requires around 4x less memory than training from scratch. We then break down the results to understand where VST fails the most and in which scenarios the transfer-learning approach is viable. Our experiments show an 85\% top-1 accuracy on FCVID without retraining the whole model which is equal to the state-of-the-art for the dataset and a 21\% accuracy on Something-Something. The experiments also suggest that the performance of the VST decreases on average when the video duration increases which seems to be a consequence of a design choice of the model. From the results, we conclude that VST generalizes well enough to classify out-of-domain videos without retraining when the target classes are from the same type as the classes used to train the model. We observed this effect when we performed transfer-learning from Kinetics-400 to FCVID, where most datasets target mostly objects. On the other hand, if the classes are not from the same type, then the accuracy after the transfer-learning approach is expected to be poor. We observed this effect when we performed transfer-learning from Kinetics-400, where the classes represent mostly objects, to Something-Something, where the classes represent mostly actions.

arxiv情報

著者 Daniel Oliveira,David Martins de Matos
発行日 2022-10-18 16:24:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV, I.2.10 パーマリンク