AIM: Adapting Image Models for Efficient Video Action Recognition

要約

近年の視覚変換器を用いた映像モデルは、「画像事前学習→微調整」のパラダイムに従っており、複数の映像ベンチマークにおいて大きな成功を収めている。しかし、事前に学習された画像変換モデルが優れた移植性を示すことを考えると、このようなビデオモデルを完全に微調整することは、計算コストが高く、不要である可能性がある。本研究では、効率的なビデオ理解のために、事前に学習した画像モデルを適応させる新しい手法(Adaptive pre-trained Image Models: AIM)を提案する。事前学習した画像モデルを凍結し、いくつかの軽量なアダプタを追加することで、空間適応、時間適応、結合適応を導入し、画像モデルに時空間推論能力を徐々に装備させる。我々は、提案するAIMが、4つのビデオ行動認識ベンチマークにおいて、調整可能なパラメータが大幅に少なく、先行技術と同等かそれ以上の性能を達成できることを示す。また、本手法は、そのシンプルさのおかげで、異なる画像の事前学習済みモデルにも一般的に適用可能であり、将来、より強力な画像基盤モデルを活用できる可能性を持っています。プロジェクトのウェブページは \{https://adapt-image-models.github.io/} です。

要約(オリジナル)

Recent vision transformer based video models mostly follow the “image pre-training then finetuning’ paradigm and have achieved great success on multiple video benchmarks. However, full finetuning such a video model could be computationally expensive and unnecessary, given the pre-trained image transformer models have demonstrated exceptional transferability. In this work, we propose a novel method to Adapt pre-trained Image Models (AIM) for efficient video understanding. By freezing the pre-trained image model and adding a few lightweight Adapters, we introduce spatial adaptation, temporal adaptation and joint adaptation to gradually equip an image model with spatiotemporal reasoning capability. We show that our proposed AIM can achieve competitive or even better performance than prior arts with substantially fewer tunable parameters on four video action recognition benchmarks. Thanks to its simplicity, our method is also generally applicable to different image pre-trained models, which has the potential to leverage more powerful image foundation models in the future. The project webpage is \url{https://adapt-image-models.github.io/}.

arxiv情報

著者 Taojiannan Yang,Yi Zhu,Yusheng Xie,Aston Zhang,Chen Chen,Mu Li
発行日 2023-02-06 18:59:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク