要約
特に手動注釈が費用がかかり、時間がかかるビデオドメインで、ラベルのないモデルの事前削除の強力なパラダイムとして、自己教師の学習が浮上しています。
ただし、既存の自己監視アプローチでは、多様な実験セットアップが採用されており、標準化されたベンチマークがないため、直接的な比較が困難になります。
この作業では、さまざまな方法で公正な比較を可能にする統一ベンチマークを確立します。
さらに、ビデオの自己監視学習の5つの重要な側面を体系的に調査します:(1)データセットサイズ、(2)モデルの複雑さ、(3)データ分布、(4)データノイズ、および(5)機能表現。
この研究を促進するために、6つのネットワークアーキテクチャにわたって6つの自己監視学習方法を評価し、5つのベンチマークデータセットで広範な実験を実施し、2つの異なるダウンストリームタスクでパフォーマンスを評価します。
私たちの分析により、事前トレーニング戦略、データセットの特性、口実タスク、モデルアーキテクチャの相互作用に関する重要な洞察が明らかになりました。
さらに、これらの調査結果をビデオファンデーションモデル(VIFMS)に拡張し、大規模なビデオ表現学習におけるそれらの関連性を示しています。
最後に、これらの洞察を活用して、トレーニングデータの要件を大幅に削減しながら、10%の事前前データに依存する最先端の方法を上回る新しいアプローチを提案します。
この作品は、将来の研究を、自己教師のビデオ表現学習とその幅広い意味をより深く理解するために導くと考えています。
要約(オリジナル)
Self-supervised learning has emerged as a powerful paradigm for label-free model pretraining, particularly in the video domain, where manual annotation is costly and time-intensive. However, existing self-supervised approaches employ diverse experimental setups, making direct comparisons challenging due to the absence of a standardized benchmark. In this work, we establish a unified benchmark that enables fair comparisons across different methods. Additionally, we systematically investigate five critical aspects of self-supervised learning in videos: (1) dataset size, (2) model complexity, (3) data distribution, (4) data noise, and (5) feature representations. To facilitate this study, we evaluate six self-supervised learning methods across six network architectures, conducting extensive experiments on five benchmark datasets and assessing performance on two distinct downstream tasks. Our analysis reveals key insights into the interplay between pretraining strategies, dataset characteristics, pretext tasks, and model architectures. Furthermore, we extend these findings to Video Foundation Models (ViFMs), demonstrating their relevance in large-scale video representation learning. Finally, leveraging these insights, we propose a novel approach that significantly reduces training data requirements while surpassing state-of-the-art methods that rely on 10% more pretraining data. We believe this work will guide future research toward a deeper understanding of self-supervised video representation learning and its broader implications.
arxiv情報
著者 | Akash Kumar,Ashlesha Kumar,Vibhav Vineet,Yogesh S Rawat |
発行日 | 2025-04-08 15:47:58+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google