Seeing Sound, Hearing Sight: Uncovering Modality Bias and Conflict of AI models in Sound Localization

要約

犬の樹皮を聞いて、駐車した車を見るためだけに音に向かって曲がると想像してください。
このような感覚的競合は、テスト認識をテストしますが、人間は誤解を招くビジュアルよりも音を優先することにより、それらを確実に解決します。
マルチモーダルAIの統合ビジョンとオーディオの進歩にもかかわらず、これらのシステムがクロスモーダルの競合をどのように処理するか、または1つのモダリティを支持するかどうかについてはほとんど知られていません。
この研究では、AIサウンドローカリゼーションにおけるモダリティバイアスと紛争解決を体系的に調べます。
主要なマルチモーダルモデルを評価し、合同、対立、不在のキューを含む6つの視聴覚条件にわたる精神物理学実験における人間のパフォーマンスに対してそれらをベンチマークします。
人間は一貫してAIを上回り、聴覚情報に依存することにより、矛盾する視覚または欠落している視覚を紛争または欠落していることに対して優れた回復力を示しています。
対照的に、AIモデルは、多くの場合、視覚入力をデフォルトでデフォルトで、パフォーマンスをほぼ偶然のレベルに分解します。
これに対処するために、3Dシミュレーションを介して生成されたステレオオーディオイメージデータセットを使用して、最先端のモデルをFintuneします。
トレーニングデータが限られていても、洗練されたモデルは既存のベンチマークを上回ります。
特に、人間の耳の配置を反映したステレオオーディオ構造のために、左右の精度と左右の精度 – を支持する人間のような水平局在バイアスも反映しています。
これらの調査結果は、感覚入力の品質とシステムアーキテクチャがマルチモーダル表現の精度をどのように形成するかを強調しています。

要約(オリジナル)

Imagine hearing a dog bark and turning toward the sound only to see a parked car, while the real, silent dog sits elsewhere. Such sensory conflicts test perception, yet humans reliably resolve them by prioritizing sound over misleading visuals. Despite advances in multimodal AI integrating vision and audio, little is known about how these systems handle cross-modal conflicts or whether they favor one modality. In this study, we systematically examine modality bias and conflict resolution in AI sound localization. We assess leading multimodal models and benchmark them against human performance in psychophysics experiments across six audiovisual conditions, including congruent, conflicting, and absent cues. Humans consistently outperform AI, demonstrating superior resilience to conflicting or missing visuals by relying on auditory information. In contrast, AI models often default to visual input, degrading performance to near chance levels. To address this, we finetune a state-of-the-art model using a stereo audio-image dataset generated via 3D simulations. Even with limited training data, the refined model surpasses existing benchmarks. Notably, it also mirrors human-like horizontal localization bias favoring left-right precision-likely due to the stereo audio structure reflecting human ear placement. These findings underscore how sensory input quality and system architecture shape multimodal representation accuracy.

arxiv情報

著者 Yanhao Jia,Ji Xie,S Jivaganesh,Hao Li,Xu Wu,Mengmi Zhang
発行日 2025-05-16 13:13:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.MM, cs.SD, eess.AS パーマリンク