Dynamic and Compressive Adaptation of Transformers From Images to Videos

要約

最近、画像とテキストのマッチングによる事前トレーニング済みビジョン トランスフォーマー (ViT) の目覚ましい成功により、画像からビデオへの適応への関心が高まっています。
ただし、現在のアプローチのほとんどは各フレームの完全な前方パスを保持するため、ビデオ全体を処理する際の計算オーバーヘッドが高くなります。
この論文では、動的なフレーム間トークン補間を使用した、画像からビデオへの圧縮適応のための新しいアプローチである InTI を紹介します。
InTI は、情報トークンの一貫した時空間構造を破壊することなく、情報トークンをソフトに保存することを目指しています。
具体的には、隣接フレーム内の同一位置にある各トークン ペアは新しいトークンに線形的に集約され、集約の重みはマルチスケールのコンテキスト認識ネットワークによって生成されます。
このようにして、隣接フレームの情報をポイントごとに適応的に圧縮することができるため、処理されるフレームの数が毎回効果的に半分に削減されます。
重要なのは、InTI は既存の適応方法とシームレスに統合でき、特別に複雑な設計を行わずに強力なパフォーマンスを達成できることです。
Kinetics-400 では、InTI は 87.1 というトップ 1 の精度に達し、単純適応と比較して GFLOP が 37.5% 大幅に減少しました。
追加の時間モジュールと組み合わせると、InTI は GFLOP を 37% 削減し、トップ 1 の精度 87.6 を達成します。
同様の結論が他の一般的なデータセットでも検証されています。

要約(オリジナル)

Recently, the remarkable success of pre-trained Vision Transformers (ViTs) from image-text matching has sparked an interest in image-to-video adaptation. However, most current approaches retain the full forward pass for each frame, leading to a high computation overhead for processing entire videos. In this paper, we present InTI, a novel approach for compressive image-to-video adaptation using dynamic Inter-frame Token Interpolation. InTI aims to softly preserve the informative tokens without disrupting their coherent spatiotemporal structure. Specifically, each token pair at identical positions within neighbor frames is linearly aggregated into a new token, where the aggregation weights are generated by a multi-scale context-aware network. In this way, the information of neighbor frames can be adaptively compressed in a point-by-point manner, thereby effectively reducing the number of processed frames by half each time. Importantly, InTI can be seamlessly integrated with existing adaptation methods, achieving strong performance without extra-complex design. On Kinetics-400, InTI reaches a top-1 accuracy of 87.1 with a remarkable 37.5% reduction in GFLOPs compared to naive adaptation. When combined with additional temporal modules, InTI achieves a top-1 accuracy of 87.6 with a 37% reduction in GFLOPs. Similar conclusions have been verified in other common datasets.

arxiv情報

著者 Guozhen Zhang,Jingyu Liu,Shengming Cao,Xiaotong Zhao,Kevin Zhao,Kai Ma,Limin Wang
発行日 2024-08-13 12:01:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク