Multi-Domain Audio Question Answering Toward Acoustic Content Reasoning in The DCASE 2025 Challenge

要約

DCASE 2025チャレンジのタスク5を紹介します。音響質問(AQA)ベンチマークは、健全な理解の複数のドメインにまたがっています。
このタスクは、3つのQAサブセット(生体acoustics、時間的サウンドスケープ、および複雑なQA)を定義して、多様な音響シーンを介したインタラクティブな質問回答に関するオーディオ言語モデルをテストします。
データセットの構成(海洋哺乳類の呼び出しからサウンドスケープや複雑な現実世界のクリップまで)、評価プロトコル(回答の堅牢性を備えたトップ1精度)、およびベースラインシステム(QWEN2-Audio-7B、Audioflamingo 2、Gemini-2-Flash)について説明します。
開発セットの予備的な結果が比較され、モデルとサブセット間の強力な変動が示されています。
この課題の目的は、AIエージェントが世界について効果的に知覚し、相互作用することを可能にするために重要な人間レベルの視力に対するオーディオ言語モデルのオーディオ理解と推論能力を前進させることを目的としています。

要約(オリジナル)

We present Task 5 of the DCASE 2025 Challenge: an Audio Question Answering (AQA) benchmark spanning multiple domains of sound understanding. This task defines three QA subsets (Bioacoustics, Temporal Soundscapes, and Complex QA) to test audio-language models on interactive question-answering over diverse acoustic scenes. We describe the dataset composition (from marine mammal calls to soundscapes and complex real-world clips), the evaluation protocol (top-1 accuracy with answer-shuffling robustness), and baseline systems (Qwen2-Audio-7B, AudioFlamingo 2, Gemini-2-Flash). Preliminary results on the development set are compared, showing strong variation across models and subsets. This challenge aims to advance the audio understanding and reasoning capabilities of audio-language models toward human-level acuity, which are crucial for enabling AI agents to perceive and interact about the world effectively.

arxiv情報

著者 Chao-Han Huck Yang,Sreyan Ghosh,Qing Wang,Jaeyeon Kim,Hengyi Hong,Sonal Kumar,Guirui Zhong,Zhifeng Kong,S Sakshi,Vaibhavi Lokegaonkar,Oriol Nieto,Ramani Duraiswami,Dinesh Manocha,Gunhee Kim,Jun Du,Rafael Valle,Bryan Catanzaro
発行日 2025-05-12 09:04:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.MM, cs.SD, eess.AS パーマリンク