要約
自己教師付き視聴覚表現学習の最近の進歩により、豊かで包括的な表現をキャプチャできる可能性が実証されました。
しかし、多くの学習方法でデータ拡張の利点が検証されているにもかかわらず、拡張によって入力ペア間の対応が簡単に崩れてしまう可能性があるため、視聴覚学習ではこれらの利点を十分に活用するのが困難でした。
この制限に対処するために、オーディオビジュアル対比学習に等分散性を利用する新しいフレームワークである EquiAV を導入します。
私たちのアプローチは、共有の注意ベースの変換予測子によって促進される、等分散性を視聴覚学習に拡張することから始まります。
これにより、さまざまな拡張から代表的な埋め込みへの機能の集約が可能になり、堅牢な監視が提供されます。
特に、これは最小限の計算オーバーヘッドで実現されます。
広範なアブレーション研究と定性的結果により、私たちの方法の有効性が検証されています。
EquiAV は、さまざまなオーディオビジュアル ベンチマークにわたって以前の作品よりも優れたパフォーマンスを発揮します。
要約(オリジナル)
Recent advancements in self-supervised audio-visual representation learning have demonstrated its potential to capture rich and comprehensive representations. However, despite the advantages of data augmentation verified in many learning methods, audio-visual learning has struggled to fully harness these benefits, as augmentations can easily disrupt the correspondence between input pairs. To address this limitation, we introduce EquiAV, a novel framework that leverages equivariance for audio-visual contrastive learning. Our approach begins with extending equivariance to audio-visual learning, facilitated by a shared attention-based transformation predictor. It enables the aggregation of features from diverse augmentations into a representative embedding, providing robust supervision. Notably, this is achieved with minimal computational overhead. Extensive ablation studies and qualitative results verify the effectiveness of our method. EquiAV outperforms previous works across various audio-visual benchmarks.
arxiv情報
著者 | Jongsuk Kim,Hyeongkeun Lee,Kyeongha Rho,Junmo Kim,Joon Son Chung |
発行日 | 2024-03-14 15:44:19+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google