Structured-Noise Masked Modeling for Video, Audio and Beyond

要約

マスクされたモデリングは強力な自己監視学習フレームワークとして浮上していますが、既存の方法は、さまざまなモダリティの構造的特性を無視して、ランダムマスキングに大きく依存しています。
この作業では、構造化されたノイズベースのマスキングを紹介します。これは、ビデオおよびオーディオデータの空間的、時間的、およびスペクトル特性と自然に整合するシンプルで効果的なアプローチです。
ホワイトノイズを明確なカラーノイズ分布にフィルタリングすることにより、手作りのヒューリスティックやデータへのアクセスを必要とせずに、モダリティ固有のパターンを保存する構造化されたマスクを生成します。
私たちのアプローチは、計算オーバーヘッドなしでマスクされたビデオおよびオーディオモデリングフレームワークのパフォーマンスを改善します。
広範な実験は、構造化されたノイズマスキングが、標準および高度なマスクモデリング方法のためのランダムマスキングよりも一貫した改善を達成し、表現学習のためのモダリティ認識マスキング戦略の重要性を強調することを示しています。

要約(オリジナル)

Masked modeling has emerged as a powerful self-supervised learning framework, but existing methods largely rely on random masking, disregarding the structural properties of different modalities. In this work, we introduce structured noise-based masking, a simple yet effective approach that naturally aligns with the spatial, temporal, and spectral characteristics of video and audio data. By filtering white noise into distinct color noise distributions, we generate structured masks that preserve modality-specific patterns without requiring handcrafted heuristics or access to the data. Our approach improves the performance of masked video and audio modeling frameworks without any computational overhead. Extensive experiments demonstrate that structured noise masking achieves consistent improvement over random masking for standard and advanced masked modeling methods, highlighting the importance of modality-aware masking strategies for representation learning.

arxiv情報

著者 Aritra Bhowmik,Fida Mohammad Thoker,Carlos Hinojosa,Bernard Ghanem,Cees G. M. Snoek
発行日 2025-03-20 16:34:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.SD パーマリンク