要約
Audio Large Language Models (AudioLLM)を評価するために設計されたユニバーサルベンチマークであるAudioBenchを紹介する。このベンチマークは8つのタスクと26のデータセットを含み、そのうち7つは新しく提案されたデータセットである。評価対象は、音声理解、音声シーン理解、音声理解(パラ言語)の3つである。最近の進歩にもかかわらず、音声信号を条件とした命令追従能力に関するAudioLLMの包括的なベンチマークは存在しない。AudioBenchは、データセットと望ましい評価指標を設定することで、このギャップを解決します。また、5つの一般的なモデルの能力を評価し、すべてのタスクで一貫して優れているモデルはないことを発見した。AudioLLMの研究展望を概説し、オープンソースの評価ツールキット、データ、リーダーボードが、将来のモデル開発のための強固なテストベッドを提供することを期待する。
要約(オリジナル)
We introduce AudioBench, a universal benchmark designed to evaluate Audio Large Language Models (AudioLLMs). It encompasses 8 distinct tasks and 26 datasets, among which, 7 are newly proposed datasets. The evaluation targets three main aspects: speech understanding, audio scene understanding, and voice understanding (paralinguistic). Despite recent advancements, there lacks a comprehensive benchmark for AudioLLMs on instruction following capabilities conditioned on audio signals. AudioBench addresses this gap by setting up datasets as well as desired evaluation metrics. Besides, we also evaluated the capabilities of five popular models and found that no single model excels consistently across all tasks. We outline the research outlook for AudioLLMs and anticipate that our open-sourced evaluation toolkit, data, and leaderboard will offer a robust testbed for future model developments.
arxiv情報
著者 | Bin Wang,Xunlong Zou,Geyu Lin,Shuo Sun,Zhuohan Liu,Wenyu Zhang,Zhengyuan Liu,AiTi Aw,Nancy F. Chen |
発行日 | 2024-09-02 07:54:54+00:00 |
arxivサイト | arxiv_id(pdf) |