Limited Data, Unlimited Potential: A Study on ViTs Augmented by Masked Autoencoders

要約

ビジョン トランスフォーマー (ViT) は、コンピューター ビジョンで広く普及しています。
ViT は成功しているにもかかわらず、帰納的バイアスが欠けているため、限られたデータでトレーニングすることが困難になる可能性があります。
この課題に対処するために、先行研究では、自己教師あり学習 (SSL) を使用して ViT をトレーニングし、順次微調整することが提案されています。
ただし、トレーニング データの量が限られている場合、主タスクと自己監視補助タスク (SSAT) の ViT を共同最適化することは、驚くほど有益であることがわかりました。
私たちは、主要なタスクと並行して最適化できる適切な SSL タスク、これらのタスクのトレーニング スキーム、および最も効果を発揮できるデータ スケールを検討します。
私たちの調査結果から、SSAT は、ViT が自己教師ありタスクと主要タスクの両方の固有の特性を活用できる強力な手法であり、SSL と逐次微調整を使用した一般的な ViT の事前トレーニングよりも優れたパフォーマンスを達成できることが明らかになりました。
10 のデータセットに対して行われた私たちの実験では、SSAT が二酸化炭素排出量を削減しながら ViT のパフォーマンスを大幅に向上させることが実証されました。
また、ディープフェイク検出のためのビデオ領域における SSAT の有効性も確認し、その汎用性を示します。
私たちのコードは https://github.com/dominickrei/Limited-data-vits で入手できます。

要約(オリジナル)

Vision Transformers (ViTs) have become ubiquitous in computer vision. Despite their success, ViTs lack inductive biases, which can make it difficult to train them with limited data. To address this challenge, prior studies suggest training ViTs with self-supervised learning (SSL) and fine-tuning sequentially. However, we observe that jointly optimizing ViTs for the primary task and a Self-Supervised Auxiliary Task (SSAT) is surprisingly beneficial when the amount of training data is limited. We explore the appropriate SSL tasks that can be optimized alongside the primary task, the training schemes for these tasks, and the data scale at which they can be most effective. Our findings reveal that SSAT is a powerful technique that enables ViTs to leverage the unique characteristics of both the self-supervised and primary tasks, achieving better performance than typical ViTs pre-training with SSL and fine-tuning sequentially. Our experiments, conducted on 10 datasets, demonstrate that SSAT significantly improves ViT performance while reducing carbon footprint. We also confirm the effectiveness of SSAT in the video domain for deepfake detection, showcasing its generalizability. Our code is available at https://github.com/dominickrei/Limited-data-vits.

arxiv情報

著者 Srijan Das,Tanmay Jain,Dominick Reilly,Pranav Balaji,Soumyajit Karmakar,Shyam Marjit,Xiang Li,Abhijit Das,Michael Ryoo
発行日 2023-10-31 17:59:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク