要約
オーディオビジュアル学習における最近の進歩は、モダリティを超えた表現の学習において有望な結果を示している。しかし、ほとんどのアプローチは、視覚フレームとのきめ細かな時間的対応を捉えることができないグローバルな音声表現に依存している。さらに、既存の手法は、再構成とクロスモーダルアライメントを共同で学習しようとするとき、しばしば相反する最適化目的に悩まされる。本研究では、CAV-MAE Syncを、自己教師ありオーディオビジュアル学習のための、オリジナルのCAV-MAEフレームワークのシンプルかつ効果的な拡張として提案する。我々は3つの重要な課題に取り組む:第一に、大域的な表現を用いるのではなく、オーディオをビデオフレームと整列した時間的シーケンスとして扱うことで、モダリティ間の粒度の不一致に取り組む。第二に、専用のグローバルトークンを用いて、対比目的と再構成目的を分離することで、相反する最適化目標を解決する。第三に、学習可能なレジスタトークンを導入することで、パッチトークンの意味的負荷を軽減し、空間定位を改善する。提案アプローチを、AudioSet、VGG Sound、ADE20K Soundデータセットを用いて、ゼロショット検索、分類、定位タスクで評価し、最先端の性能を実証し、より複雑なアーキテクチャを凌駕する。
要約(オリジナル)
Recent advances in audio-visual learning have shown promising results in learning representations across modalities. However, most approaches rely on global audio representations that fail to capture fine-grained temporal correspondences with visual frames. Additionally, existing methods often struggle with conflicting optimization objectives when trying to jointly learn reconstruction and cross-modal alignment. In this work, we propose CAV-MAE Sync as a simple yet effective extension of the original CAV-MAE framework for self-supervised audio-visual learning. We address three key challenges: First, we tackle the granularity mismatch between modalities by treating audio as a temporal sequence aligned with video frames, rather than using global representations. Second, we resolve conflicting optimization goals by separating contrastive and reconstruction objectives through dedicated global tokens. Third, we improve spatial localization by introducing learnable register tokens that reduce semantic load on patch tokens. We evaluate the proposed approach on AudioSet, VGG Sound, and the ADE20K Sound dataset on zero-shot retrieval, classification and localization tasks demonstrating state-of-the-art performance and outperforming more complex architectures.
arxiv情報
著者 | Edson Araujo,Andrew Rouditchenko,Yuan Gong,Saurabhchand Bhati,Samuel Thomas,Brian Kingsbury,Leonid Karlinsky,Rogerio Feris,James R. Glass |
発行日 | 2025-05-02 12:59:58+00:00 |
arxivサイト | arxiv_id(pdf) |