要約
Vision Transformers は、さまざまな視覚認識タスクにわたって優れた精度を実現します。
残念ながら、その精度を実現するには、多くの場合、高い計算コストが伴います。
これは、モデルがフレームまたは時間チャンクにわたって繰り返し適用されることが多いビデオ認識において特に問題となります。
この研究では、後続の入力間の時間的冗長性を利用して、ビデオ処理のためのトランスフォーマーのコストを削減します。
時間の経過とともに大幅に変更されたトークンのみを識別して再処理する方法について説明します。
私たちが提案するモデル ファミリである Eventful Transformers は、既存の Transformers から (多くの場合、再トレーニングなしで) 変換でき、実行時のコンピューティング コストを適応的に制御できます。
ビデオ オブジェクト検出 (ImageNet VID) とアクション認識 (EPIC-Kitchens 100) のための大規模データセットでの手法を評価します。
私たちのアプローチは、精度の低下がわずかであるだけで、大幅な計算量の節約 (約 2 ~ 4 倍) につながります。
要約(オリジナル)
Vision Transformers achieve impressive accuracy across a range of visual recognition tasks. Unfortunately, their accuracy frequently comes with high computational costs. This is a particular issue in video recognition, where models are often applied repeatedly across frames or temporal chunks. In this work, we exploit temporal redundancy between subsequent inputs to reduce the cost of Transformers for video processing. We describe a method for identifying and re-processing only those tokens that have changed significantly over time. Our proposed family of models, Eventful Transformers, can be converted from existing Transformers (often without any re-training) and give adaptive control over the compute cost at runtime. We evaluate our method on large-scale datasets for video object detection (ImageNet VID) and action recognition (EPIC-Kitchens 100). Our approach leads to significant computational savings (on the order of 2-4x) with only minor reductions in accuracy.
arxiv情報
| 著者 | Matthew Dutson,Yin Li,Mohit Gupta | 
| 発行日 | 2023-08-25 17:10:12+00:00 | 
| arxivサイト | arxiv_id(pdf) | 
提供元, 利用サービス
arxiv.jp, Google
