SVT: Supertoken Video Transformer for Efficient Video Understanding

要約

【タイトル】効率的な動画理解のためのスーパートークンビデオトランスフォーマー(SVT)

【要約】
– 既存の動画トランスフォーマーは、固定解像度のビデオを始めから終わりまで処理するか、プーリングやダウンスケーリングの戦略を組み込むことで、大部分が冗長な情報を特別に処理することなくネットワーク全体でビデオコンテンツを処理していた。
– SVTは、セマンティックプーリングモジュール(SPM)を組み込み、視覚トランスフォーマーの深度に沿って、彼らの意味に基づいて潜在的な表現を集約することで、ビデオ入力に内在する冗長性を減少させる。
– 質的な結果は、類似した意味を持つ潜在的な表現をマージすることで冗長性を効果的に減少させ、ダウンストリームタスクのための著名な情報の割合を増やせることを示している。
– 定量的に、SVTは、KinecticsとSomething-Something-V2のベンチマークで、ViTおよびMViTの両方のパフォーマンスを向上させる一方、計算量が大幅に少なくても機能する。
– 具体的には、SVTにより、MAE-pretrained ViT-BとViT-Lの精度を、Kinectics-400ベンチマークでそれぞれ33%少ないGFLOPsで1.5%、55%少ないFLOPsで0.2%向上させ、MViTv2-Bの精度を、Kinectics-400およびSomething-Something-V2で22%少ないGFLOPsでそれぞれ0.2%、0.3%向上させる。

要約(オリジナル)

Whether by processing videos with fixed resolution from start to end or incorporating pooling and down-scaling strategies, existing video transformers process the whole video content throughout the network without specially handling the large portions of redundant information. In this paper, we present a Supertoken Video Transformer (SVT) that incorporates a Semantic Pooling Module (SPM) to aggregate latent representations along the depth of visual transformer based on their semantics, and thus, reduces redundancy inherent in video inputs.~Qualitative results show that our method can effectively reduce redundancy by merging latent representations with similar semantics and thus increase the proportion of salient information for downstream tasks.~Quantitatively, our method improves the performance of both ViT and MViT while requiring significantly less computations on the Kinectics and Something-Something-V2 benchmarks.~More specifically, with our SPM, we improve the accuracy of MAE-pretrained ViT-B and ViT-L by 1.5% with 33% less GFLOPs and by 0.2% with 55% less FLOPs, respectively, on the Kinectics-400 benchmark, and improve the accuracy of MViTv2-B by 0.2% and 0.3% with 22% less GFLOPs on Kinectics-400 and Something-Something-V2, respectively.

arxiv情報

著者 Chenbin Pan,Rui Hou,Hanchao Yu,Qifan Wang,Senem Velipasalar,Madian Khabsa
発行日 2023-04-23 21:42:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CV パーマリンク