CAV-MAE Sync: Improving Contrastive Audio-Visual Mask Autoencoders via Fine-Grained Alignment

要約

視聴覚学習の最近の進歩により、モダリティ全体の学習表現における有望な結果が示されています。
ただし、ほとんどのアプローチは、視覚フレームとのきめの細かい時間的対応をキャプチャできないグローバルなオーディオ表現に依存しています。
さらに、既存の方法は、再構築とモーダルのアライメントを共同で学習しようとする際に、対立する最適化目標と闘うことがよくあります。
この作業では、Cav-Mae同期を、自己監視視覚学習のための元のCav-Maeフレームワークのシンプルで効果的な拡張として提案します。
3つの重要な課題に対処します。まず、グローバルな表現を使用するのではなく、ビデオフレームに合わせた時間シーケンスとしてオーディオを扱うことにより、モダリティ間の粒度の不一致に取り組みます。
第二に、専用のグローバルトークンを通じて対照的な目標と再構築目標を分離することにより、矛盾する最適化の目標を解決します。
第三に、パッチトークンのセマンティック負荷を減らす学習可能なレジスタトークンを導入することにより、空間ローカリゼーションを改善します。
ゼロショット検索、分類およびローカリゼーションタスクに関するADESET、VGG Sound、およびADE20Kサウンドデータセットで提案されているアプローチを評価し、最先端のパフォーマンスとより複雑なアーキテクチャを上回ることを実証します。

要約(オリジナル)

Recent advances in audio-visual learning have shown promising results in learning representations across modalities. However, most approaches rely on global audio representations that fail to capture fine-grained temporal correspondences with visual frames. Additionally, existing methods often struggle with conflicting optimization objectives when trying to jointly learn reconstruction and cross-modal alignment. In this work, we propose CAV-MAE Sync as a simple yet effective extension of the original CAV-MAE framework for self-supervised audio-visual learning. We address three key challenges: First, we tackle the granularity mismatch between modalities by treating audio as a temporal sequence aligned with video frames, rather than using global representations. Second, we resolve conflicting optimization goals by separating contrastive and reconstruction objectives through dedicated global tokens. Third, we improve spatial localization by introducing learnable register tokens that reduce semantic load on patch tokens. We evaluate the proposed approach on AudioSet, VGG Sound, and the ADE20K Sound dataset on zero-shot retrieval, classification and localization tasks demonstrating state-of-the-art performance and outperforming more complex architectures.

arxiv情報

著者 Edson Araujo,Andrew Rouditchenko,Yuan Gong,Saurabhchand Bhati,Samuel Thomas,Brian Kingsbury,Leonid Karlinsky,Rogerio Feris,James R. Glass,Hilde Kuehne
発行日 2025-05-21 13:54:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.MM, cs.SD, eess.AS パーマリンク