要約
音声ベースの相互作用モデルの必要性が高まっているため、エンドツーエンドの音声言語モデル(SLM)が有望なソリューションとして浮上しています。
これらのモデルでは、意味のある信頼できる人間の相互作用のための包括的な世界知識が必要ですが、既存の質問回答(QA)ベンチマークは、エンドツーエンドの音声評価をサポートできないため、さまざまな入力オーディオ条件を説明できないため、SLMSの知識理解を評価するのに不足しています。
これらの制限に対処するために、純粋な音声相互作用を通じてSLMの知識の理解を評価する新しいSpeechQAベンチマークであるVoxevalを提示します。
私たちのベンチマーク1)入力と出力の両方の音声形式を一意に維持し、2)多様な入力オーディオ条件全体のモデルの堅牢性を評価し、3)開拓者の数学的推論などの複雑なタスクの評価を開拓者に評価します。
体系的な評価は、Voxevalが現在のSLMに大きな課題をもたらし、さまざまなオーディオ条件に対する感受性を明らかにし、将来の開発における推論能力を高める必要性を強調することを示しています。
このベンチマークが、より洗練された信頼性の高いSLMの進歩を導くことができることを願っています。
Voxeval Datasetは、https://github.com/dreamtheater123/voxevalで入手できます
要約(オリジナル)
With the rising need for speech-based interaction models, end-to-end Spoken Language Models (SLMs) have emerged as a promising solution. While these models require comprehensive world knowledge for meaningful and reliable human interactions, existing question-answering (QA) benchmarks fall short in evaluating SLMs’ knowledge understanding due to their inability to support end-to-end speech evaluation and account for varied input audio conditions. To address these limitations, we present VoxEval, a novel SpeechQA benchmark that assesses SLMs’ knowledge understanding through pure speech interactions. Our benchmark 1) uniquely maintains speech format for both inputs and outputs, 2) evaluates model robustness across diverse input audio conditions, and 3) pioneers the assessment of complex tasks like mathematical reasoning in spoken format. Systematic evaluation demonstrates that VoxEval presents significant challenges to current SLMs, revealing their sensitivity to varying audio conditions and highlighting the need to enhance reasoning capabilities in future development. We hope this benchmark could guide the advancement of more sophisticated and reliable SLMs. VoxEval dataset is available at: https://github.com/dreamtheater123/VoxEval
arxiv情報
著者 | Wenqian Cui,Xiaoqi Jiao,Ziqiao Meng,Irwin King |
発行日 | 2025-05-27 16:14:30+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google