A Large-Scale Study on Video Action Dataset Condensation


ただし、ビデオ データセットの圧縮は依然として未開発の領域です。
具体的には、私たちの研究では、貴重な経験的洞察を提供するために 3 つの重要な側面を掘り下げています: (1) ビデオ データの時間処理、(2) ビデオ データセット圧縮の包括的な評価プロトコルの確立、(3) 時空間への圧縮方法の適応
この研究から、我々はいくつかの興味深い観察結果を導き出しました: (i) サンプルの多様性は、ビデオ データセットの圧縮にとって時間的多様性よりも重要であると思われる、(ii) 単純なスライド ウィンドウ サンプリングが効果的であることが証明されている、および (iii) サンプル選択は現在データセットよりも優れています。
さらに、私たちは 3 つの著名な行動認識データセット (HMDB51、UCF101、Kinetics-400) で実験を実施し、それらすべてで最先端の結果を達成しました。
私たちのコードは https://github.com/MCG-NJU/Video-DC で入手できます。


Dataset condensation has made significant progress in the image domain. Unlike images, videos possess an additional temporal dimension, which harbors considerable redundant information, making condensation even more crucial. However, video dataset condensation still remains an underexplored area. We aim to bridge this gap by providing a large-scale empirical study with systematic design and fair comparison. Specifically, our work delves into three key aspects to provide valuable empirical insights: (1) temporal processing of video data, (2) establishing a comprehensive evaluation protocol for video dataset condensation, and (3) adaptation of condensation methods to the space-time domain and fair comparisons among them. From this study, we derive several intriguing observations: (i) sample diversity appears to be more crucial than temporal diversity for video dataset condensation, (ii) simple slide-window sampling proves to be effective, and (iii) sample selection currently outperforms dataset distillation in most cases. Furthermore, we conduct experiments on three prominent action recognition datasets (HMDB51, UCF101 and Kinetics-400) and achieve state-of-the-art results on all of them. Our code is available at https://github.com/MCG-NJU/Video-DC.


著者 Yang Chen,Sheng Guo,Limin Wang
発行日 2024-12-30 18:58:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク