Dynamic-SUPERB Phase-2: A Collaboratively Expanding Benchmark for Measuring the Capabilities of Spoken Language Models with 180 Tasks

要約

GeminiやChatGptなどのマルチモーダルファンデーションモデルは、さまざまな形式のデータをシームレスに統合することにより、ヒューマンマシンの相互作用に革命をもたらしました。
幅広い自然言語の指示を理解する普遍的な音声言語モデルを開発することは、コミュニケーションのギャップを埋め、より直感的な相互作用を促進するために重要です。
ただし、包括的な評価ベンチマークがないことは大きな課題をもたらします。
命令ベースのユニバーサル音声モデルの包括的な評価のためのオープンで進化するベンチマークであるDynamic-Superb Phase-2を紹介します。
第一世代に基づいて、この2番目のバージョンには、グローバルな研究コミュニティによって共同で貢献した125の新しいタスクが組み込まれており、ベンチマークを合計180のタスクに拡大し、音声と音声評価の最大のベンチマークとなっています。
Dynamic-Superbの第1世代は分類タスクに限定されていましたが、Dynamic-Superb Phase-2は、スピーチ、音楽、環境オーディオ全体の回帰とシーケンス生成などの幅広い斬新で多様なタスクを導入することにより、評価機能を広げます。
評価結果は、モデルが普遍的にうまく機能していないことを示しています。
Salmonn-13Bは英語で優れており、QWEN2-Audio-7B-Instructは感情認識に高い精度を示しましたが、現在のモデルでは、より広範なタスクを処理するためにさらに革新が必要です。
https://github.com/dynamic-superb/dynamic-superbですべてのタスクデータと評価パイプラインをオープンソースします。

要約(オリジナル)

Multimodal foundation models, such as Gemini and ChatGPT, have revolutionized human-machine interactions by seamlessly integrating various forms of data. Developing a universal spoken language model that comprehends a wide range of natural language instructions is critical for bridging communication gaps and facilitating more intuitive interactions. However, the absence of a comprehensive evaluation benchmark poses a significant challenge. We present Dynamic-SUPERB Phase-2, an open and evolving benchmark for the comprehensive evaluation of instruction-based universal speech models. Building upon the first generation, this second version incorporates 125 new tasks contributed collaboratively by the global research community, expanding the benchmark to a total of 180 tasks, making it the largest benchmark for speech and audio evaluation. While the first generation of Dynamic-SUPERB was limited to classification tasks, Dynamic-SUPERB Phase-2 broadens its evaluation capabilities by introducing a wide array of novel and diverse tasks, including regression and sequence generation, across speech, music, and environmental audio. Evaluation results show that no model performed well universally. SALMONN-13B excelled in English ASR and Qwen2-Audio-7B-Instruct showed high accuracy in emotion recognition, but current models still require further innovations to handle a broader range of tasks. We open-source all task data and the evaluation pipeline at https://github.com/dynamic-superb/dynamic-superb.

arxiv情報

著者 Chien-yu Huang,Wei-Chih Chen,Shu-wen Yang,Andy T. Liu,Chen-An Li,Yu-Xiang Lin,Wei-Cheng Tseng,Anuj Diwan,Yi-Jen Shih,Jiatong Shi,William Chen,Chih-Kai Yang,Wenze Ren,Xuanjun Chen,Chi-Yuan Hsiao,Puyuan Peng,Shih-Heng Wang,Chun-Yi Kuan,Ke-Han Lu,Kai-Wei Chang,Fabian Ritter-Gutierrez,Kuan-Po Huang,Siddhant Arora,You-Kuan Lin,Ming To Chuang,Eunjung Yeo,Kalvin Chang,Chung-Ming Chien,Kwanghee Choi,Jun-You Wang,Cheng-Hsiu Hsieh,Yi-Cheng Lin,Chee-En Yu,I-Hsiang Chiu,Heitor R. Guimarães,Jionghao Han,Tzu-Quan Lin,Tzu-Yuan Lin,Homu Chang,Ting-Wu Chang,Chun Wei Chen,Shou-Jen Chen,Yu-Hua Chen,Hsi-Chun Cheng,Kunal Dhawan,Jia-Lin Fang,Shi-Xin Fang,Kuan-Yu Fang Chiang,Chi An Fu,Hsien-Fu Hsiao,Ching Yu Hsu,Shao-Syuan Huang,Lee Chen Wei,Hsi-Che Lin,Hsuan-Hao Lin,Hsuan-Ting Lin,Jian-Ren Lin,Ting-Chun Liu,Li-Chun Lu,Tsung-Min Pai,Ankita Pasad,Shih-Yun Shan Kuan,Suwon Shon,Yuxun Tang,Yun-Shao Tsai,Jui-Chiang Wei,Tzu-Chieh Wei,Chengxi Wu,Dien-Ruei Wu,Chao-Han Huck Yang,Chieh-Chi Yang,Jia Qi Yip,Shao-Xiang Yuan,Vahid Noroozi,Zhehuai Chen,Haibin Wu,Karen Livescu,David Harwath,Shinji Watanabe,Hung-yi Lee
発行日 2025-06-09 16:36:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, eess.AS パーマリンク