Rethinking Resolution in the Context of Efficient Video Recognition

要約

この論文では、効率的なビデオ認識のために低解像度フレームを最大限に活用する方法を経験的に研究します。
既存の方法は主に、コンパクトなネットワークを開発するか、ビデオ入力の一時的な冗長性を軽減して効率を高めることに焦点を当てていますが、フレーム解像度の圧縮は有望なソリューションとはほとんど見なされていません。
主な懸念事項は、低解像度フレームでの認識精度の低下です。
したがって、低解像度フレームでのパフォーマンス低下の根本的な原因を分析することから始めます。
私たちの重要な発見は、劣化の主な原因はダウンサンプリング プロセスでの情報損失ではなく、ネットワーク アーキテクチャと入力スケールの不一致であるということです。
知識の蒸留 (KD) の成功に動機付けられて、クロスレゾリューション KD (ResKD) を介してネットワークと入力サイズの間のギャップを埋めることを提案します。
私たちの研究は、ResKD が低解像度フレームの認識精度を高めるためのシンプルだが効果的な方法であることを示しています。
付属品がなければ、ResKD は、ActivityNet、FCVID、Mini-Kinetics、Something-Something V2 などの 4 つの大規模なベンチマーク データセットでの効率と精度の点で、競合するすべての方法を大幅に上回っています。
さらに、最先端のアーキテクチャ、つまり 3D-CNN やビデオ トランスフォーマーに対するその有効性、および超低解像度フレームへのスケーラビリティを広く実証します。
この結果は、ResKD が最先端のビデオ認識の一般的な推論高速化方法として機能できることを示唆しています。
コードは https://github.com/CVMI-Lab/ResKD で入手できます。

要約(オリジナル)

In this paper, we empirically study how to make the most of low-resolution frames for efficient video recognition. Existing methods mainly focus on developing compact networks or alleviating temporal redundancy of video inputs to increase efficiency, whereas compressing frame resolution has rarely been considered a promising solution. A major concern is the poor recognition accuracy on low-resolution frames. We thus start by analyzing the underlying causes of performance degradation on low-resolution frames. Our key finding is that the major cause of degradation is not information loss in the down-sampling process, but rather the mismatch between network architecture and input scale. Motivated by the success of knowledge distillation (KD), we propose to bridge the gap between network and input size via cross-resolution KD (ResKD). Our work shows that ResKD is a simple but effective method to boost recognition accuracy on low-resolution frames. Without bells and whistles, ResKD considerably surpasses all competitive methods in terms of efficiency and accuracy on four large-scale benchmark datasets, i.e., ActivityNet, FCVID, Mini-Kinetics, Something-Something V2. In addition, we extensively demonstrate its effectiveness over state-of-the-art architectures, i.e., 3D-CNNs and Video Transformers, and scalability towards super low-resolution frames. The results suggest ResKD can serve as a general inference acceleration method for state-of-the-art video recognition. Our code will be available at https://github.com/CVMI-Lab/ResKD.

arxiv情報

著者 Chuofan Ma,Qiushan Guo,Yi Jiang,Zehuan Yuan,Ping Luo,Xiaojuan Qi
発行日 2022-09-26 15:50:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク