要約
ビデオデータセットの凝縮は、ディープ学習アプリケーションでの大規模なビデオデータ処理に関連する計算上の課題に対処するための重要な手法として浮上しています。
画像データセットの凝縮は大幅に進歩していますが、ビデオドメインは、空間含有量と時間的ダイナミクスとの複雑な相互作用のために独自の課題を提示します。
このペーパーでは、ビデオデータセットの凝縮のためのプリズム、漸進的な改良、およびスパースモーションのための挿入を紹介します。これは、ビデオデータの凝縮方法を根本的に再考する新しいアプローチです。
静的コンテンツを動的運動から分離する以前の方法とは異なり、この方法はこれらの要素間の本質的な相互依存性を保持します。
私たちのアプローチは、各フレームのグラデーションの関係を考慮して、より良いパフォーマンスを達成しながらストレージを実現しながら、アクションの動きに完全に対応するために、フレームを徐々に改良および挿入します。
標準的なビデオアクション認識ベンチマーク全体の広範な実験は、プリズムがリソースに制約のある環境に適したコンパクトな表現を維持しながら、既存の解き伸びアプローチを上回ることを示しています。
要約(オリジナル)
Video dataset condensation has emerged as a critical technique for addressing the computational challenges associated with large-scale video data processing in deep learning applications. While significant progress has been made in image dataset condensation, the video domain presents unique challenges due to the complex interplay between spatial content and temporal dynamics. This paper introduces PRISM, Progressive Refinement and Insertion for Sparse Motion, for video dataset condensation, a novel approach that fundamentally reconsiders how video data should be condensed. Unlike the previous method that separates static content from dynamic motion, our method preserves the essential interdependence between these elements. Our approach progressively refines and inserts frames to fully accommodate the motion in an action while achieving better performance but less storage, considering the relation of gradients for each frame. Extensive experiments across standard video action recognition benchmarks demonstrate that PRISM outperforms existing disentangled approaches while maintaining compact representations suitable for resource-constrained environments.
arxiv情報
著者 | Jaehyun Choi,Jiwan Hur,Gyojin Han,Jaemyung Yu,Junmo Kim |
発行日 | 2025-05-28 16:42:10+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google