要約
音声ベースの対話モデルの開発に対する需要が高まる中、エンドツーエンドの音声言語モデル (SLM) が有望なソリューションとして浮上しています。
人間と会話するとき、これらのモデルは世界の幅広い知識を理解することが不可欠です。
このペーパーでは、純粋に音声ベースの対話を通じて SLM の知識理解を評価するために特別に設計された、新しい音声質問応答ベンチマークである VoxEval を紹介します。
既存の AudioQA ベンチマークとは異なり、VoxEval は質問と回答の両方の音声形式を維持し、多様な音声条件 (さまざまな音色、音質、話し方) にわたるモデルの堅牢性を評価し、音声形式での数学的問題解決などの困難な領域の評価の先駆けとなります。
VoxEval を使用した最近の SLM の包括的な評価により、現在のモデルにおけるパフォーマンスの重大な制限が明らかになり、将来の改善が必要な重要な領域が明らかになりました。
要約(オリジナル)
With the growing demand for developing speech-based interaction models, end-to-end Spoken Language Models (SLMs) have emerged as a promising solution. When engaging in conversations with humans, it is essential for these models to comprehend a wide range of world knowledge. In this paper, we introduce VoxEval, a novel speech question-answering benchmark specifically designed to assess SLMs’ knowledge understanding through purely speech-based interactions. Unlike existing AudioQA benchmarks, VoxEval maintains speech format for both questions and answers, evaluates model robustness across diverse audio conditions (varying timbres, audio qualities, and speaking styles), and pioneers the assessment of challenging domains like mathematical problem-solving in spoken format. Our comprehensive evaluation of recent SLMs using VoxEval reveals significant performance limitations in current models, highlighting crucial areas for future improvements.
arxiv情報
著者 | Wenqian Cui,Xiaoqi Jiao,Ziqiao Meng,Irwin King |
発行日 | 2025-01-09 04:30:12+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google