Reversible Vision Transformers

要約

視覚認識のためのメモリ効率の高いアーキテクチャ設計であるリバーシブル ビジョン トランスフォーマーを紹介します。
GPU メモリ要件をモデルの深さから分離することにより、リバーシブル ビジョン トランスフォーマーは効率的なメモリ使用でアーキテクチャをスケールアップできます。
ビジョン トランスフォーマーとマルチスケール ビジョン トランスフォーマーという 2 つの一般的なモデルを可逆バリアントに適応させ、モデル サイズと画像分類、オブジェクト検出、ビデオ分類のタスクの両方にわたって広範囲にベンチマークを行います。
リバーシブル ビジョン トランスフォーマーは、ほぼ同じモデルの複雑さ、パラメーター、精度で最大 15.5 倍のメモリ フットプリントを削減し、ハードウェア リソースが限られたトレーニング体制の効率的なバックボーンとしてのリバーシブル ビジョン トランスフォーマーの可能性を示しています。
最後に、アクティベーションを再計算することによる追加の計算負荷は、より深いモデルでは克服される以上のものであり、スループットは非可逆モデルの 2.3 倍まで増加することがわかりました。
完全なコードとトレーニング済みモデルは、https://github.com/facebookresearch/slowfast で入手できます。
よりシンプルで理解しやすく変更しやすいバージョンも https://github.com/karttikeya/minREV で入手できます。

要約(オリジナル)

We present Reversible Vision Transformers, a memory efficient architecture design for visual recognition. By decoupling the GPU memory requirement from the depth of the model, Reversible Vision Transformers enable scaling up architectures with efficient memory usage. We adapt two popular models, namely Vision Transformer and Multiscale Vision Transformers, to reversible variants and benchmark extensively across both model sizes and tasks of image classification, object detection and video classification. Reversible Vision Transformers achieve a reduced memory footprint of up to 15.5x at roughly identical model complexity, parameters and accuracy, demonstrating the promise of reversible vision transformers as an efficient backbone for hardware resource limited training regimes. Finally, we find that the additional computational burden of recomputing activations is more than overcome for deeper models, where throughput can increase up to 2.3x over their non-reversible counterparts. Full code and trained models are available at https://github.com/facebookresearch/slowfast. A simpler, easy to understand and modify version is also available at https://github.com/karttikeya/minREV

arxiv情報

著者 Karttikeya Mangalam,Haoqi Fan,Yanghao Li,Chao-Yuan Wu,Bo Xiong,Christoph Feichtenhofer,Jitendra Malik
発行日 2023-02-09 18:59:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク