要約
オーディオビジュアル質問応答(AVQA)は、ペアのオーディオビデオ入力に基づいて自然言語クエリに正確に答えることをインテリジェントなシステムに要求する挑戦的なマルチモーダル推論タスクです。
ただし、既存のAVQAアプローチは、しばしばデータセットバイアスに過剰適合することに苦しみ、堅牢性が低下します。
さらに、現在のデータセットはこれらの方法を効果的に診断しない場合があります。
これらの課題に対処するために、最初に2つの段階で構築された新しいデータセットであるFortisavqaを紹介します。(1)パブリックミュージックAVQAデータセットのテスト分割で質問を再定再配置し、(2)質問全体の分布シフトを導入します。
最初の段階では、多様性が大きくなるとテスト空間が拡張され、2番目の段階では、まれで頻繁な、全体的な質問分布にわたって洗練された堅牢性評価が可能になります。
第二に、バイアス学習を緩和するためにマルチフェセットサイクル共同コラボレーション戦略を活用する堅牢なマルチモーダルオーディオビジュアル認識ネットワーク(Maven)を紹介します。
実験結果は、私たちのアーキテクチャがFortisavqaで最先端のパフォーマンスを達成し、7.81 \%の顕著な改善を実証していることを示しています。
両方のデータセットでの広範なアブレーション研究により、委員会のコンポーネントの有効性が検証されます。
さらに、我々の評価により、既存のマルチモーダルQAメソッドの限られた堅牢性が明らかになります。
また、両方のデータセットにわたってさまざまなベースラインモデルと統合することにより、戦略のプラグアンドプレイ機能を検証します。
データセットとコードはhttps://github.com/reml-group/fortisavqaで入手できます。
要約(オリジナル)
Audio-Visual Question Answering (AVQA) is a challenging multimodal reasoning task requiring intelligent systems to answer natural language queries based on paired audio-video inputs accurately. However, existing AVQA approaches often suffer from overfitting to dataset biases, leading to poor robustness. Moreover, current datasets may not effectively diagnose these methods. To address these challenges, we first introduce a novel dataset, FortisAVQA, constructed in two stages: (1) rephrasing questions in the test split of the public MUSIC-AVQA dataset and (2) introducing distribution shifts across questions. The first stage expands the test space with greater diversity, while the second enables a refined robustness evaluation across rare, frequent, and overall question distributions. Second, we introduce a robust Multimodal Audio-Visual Epistemic Network (MAVEN) that leverages a multifaceted cycle collaborative debiasing strategy to mitigate bias learning. Experimental results demonstrate that our architecture achieves state-of-the-art performance on FortisAVQA, with a notable improvement of 7.81\%. Extensive ablation studies on both datasets validate the effectiveness of our debiasing components. Additionally, our evaluation reveals the limited robustness of existing multimodal QA methods. We also verify the plug-and-play capability of our strategy by integrating it with various baseline models across both datasets. Our dataset and code are available at https://github.com/reml-group/fortisavqa.
arxiv情報
著者 | Jie Ma,Zhitao Gao,Qi Chai,Jun Liu,Pinghui Wang,Jing Tao,Zhou Su |
発行日 | 2025-04-02 09:19:00+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google