On the Surprising Effectiveness of Transformers in Low-Labeled Video Recognition

要約

最近、ビジョン トランスフォーマーは、複数のビジョン タスクにわたって、畳み込みベースの手法 (CNN) と広く競合できることが示されています。
変圧器の制限の少ない誘導バイアスは、CNN と比較してより大きな表現能力を与えます。
ただし、画像分類の設定では、この柔軟性はサンプル効率とのトレードオフを伴います。この場合、トランスフォーマーは ImageNet 規模のトレーニングを必要とします。
この概念は、低ラベルまたは半教師付き設定でのビデオ分類のためにトランスフォーマーがまだ調査されていないビデオに引き継がれています。
私たちの研究では、ビデオ分類の低データ体制を経験的に調査し、驚くべきことに、CNN と比較して低ラベルのビデオ設定でトランスフォーマーが非常にうまく機能することを発見しました。
2 つの対照的なビデオ データセット (Kinetics-400 と SomethingSomething-V2) にわたってビデオ ビジョン トランスフォーマーを具体的に評価し、徹底的な分析とアブレーション研究を実行して、ビデオ トランス アーキテクチャの主要な機能を使用してこの観察結果を説明します。
ラベル付けされたデータだけを使用すると、トランスフォーマーは、大規模なラベル付けされていないデータも活用する複雑な半教師付き CNN メソッドよりも大幅に優れていることも示しています。
私たちの実験は、半教師あり学習ビデオ作品は、将来ビデオ トランスフォーマーの使用を検討する必要があるという私たちの推奨事項を通知します。

要約(オリジナル)

Recently vision transformers have been shown to be competitive with convolution-based methods (CNNs) broadly across multiple vision tasks. The less restrictive inductive bias of transformers endows greater representational capacity in comparison with CNNs. However, in the image classification setting this flexibility comes with a trade-off with respect to sample efficiency, where transformers require ImageNet-scale training. This notion has carried over to video where transformers have not yet been explored for video classification in the low-labeled or semi-supervised settings. Our work empirically explores the low data regime for video classification and discovers that, surprisingly, transformers perform extremely well in the low-labeled video setting compared to CNNs. We specifically evaluate video vision transformers across two contrasting video datasets (Kinetics-400 and SomethingSomething-V2) and perform thorough analysis and ablation studies to explain this observation using the predominant features of video transformer architectures. We even show that using just the labeled data, transformers significantly outperform complex semi-supervised CNN methods that leverage large-scale unlabeled data as well. Our experiments inform our recommendation that semi-supervised learning video work should consider the use of video transformers in the future.

arxiv情報

著者 Farrukh Rahman,Ömer Mubarek,Zsolt Kira
発行日 2022-09-15 17:12:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, I.2.10 パーマリンク