要約
マルチモーダルの基礎モデルをトレーニングするためのオーディオとビジュアルデータを統合することは依然として困難です。
Audio-Video Vectorアラインメント(AVVA)を提示します。これは、大規模な言語モデル(LLM)ベースのデータキュレーションパイプラインを介して、単なる時間的同期を超えてオーディオビジュアル(AV)シーンコンテンツを整列させます。
具体的には、AVVAは、デュアルエンコーダー対照学習フレームワーク内のビデオ用のオーディオおよびDINOV2用のWhisper(音声ベースのオーディオ基礎モデル)を使用して、高品質のトレーニングクリップをスコアリングおよび選択します。
AudioCaps、Valor、およびVggsoundの評価は、このアプローチが、キュレートされたデータが大幅に少ないデータで大幅な精度の向上を達成できることを示しています。
たとえば、AVVAは、192時間の慎重にフィルター処理されたデータ(5800時間以上)のトレーニングにもかかわらず、ImageBindと比較してVGGSoundでの音声からビデオから検索の上位1精度が7.6%改善されます。
さらに、アブレーション研究では、データ品質の取引データ量がパフォーマンスを向上させ、それぞれの上位3精度が47.8、48.4、および58.0パーセントポイントの増加をもたらすことを強調しています。
これらの結果はAVVAのデータ効率を強調していますが、LLM駆動型キュレーションのオーバーヘッドと、より大きなドメインでどのように拡大または近似するかについても説明します。
全体として、AVVAは、検索精度が向上し、より堅牢でテキストのない視聴覚学習に向けて実行可能なパスを提供します。
要約(オリジナル)
Integrating audio and visual data for training multimodal foundational models remains challenging. We present Audio-Video Vector Alignment (AVVA), which aligns audiovisual (AV) scene content beyond mere temporal synchronization via a Large Language Model (LLM)-based data curation pipeline. Specifically, AVVA scores and selects high-quality training clips using Whisper (speech-based audio foundation model) for audio and DINOv2 for video within a dual-encoder contrastive learning framework. Evaluations on AudioCaps, VALOR, and VGGSound demonstrate that this approach can achieve significant accuracy gains with substantially less curated data. For instance, AVVA yields a 7.6% improvement in top-1 accuracy for audio-to-video retrieval on VGGSound compared to ImageBind, despite training on only 192 hours of carefully filtered data (vs. 5800+ hours). Moreover, an ablation study highlights that trading data quantity for data quality improves performance, yielding respective top-3 accuracy increases of 47.8, 48.4, and 58.0 percentage points on AudioCaps, VALOR, and VGGSound over uncurated baselines. While these results underscore AVVA’s data efficiency, we also discuss the overhead of LLM-driven curation and how it may be scaled or approximated in larger domains. Overall, AVVA provides a viable path toward more robust, text-free audiovisual learning with improved retrieval accuracy.
arxiv情報
著者 | Ali Vosoughi,Dimitra Emmanouilidou,Hannes Gamper |
発行日 | 2025-03-12 09:48:38+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google