要約
このペーパーでは、自然言語の説明を活用することにより、音声品質評価に対する新しい視点を探り、従来の数値スコアリング方法よりも豊かで微妙な洞察を提供します。
自然言語のフィードバックは、有益な推奨事項と詳細な評価を提供しますが、既存のデータセットには、このアプローチに必要な包括的な注釈がありません。
このギャップを埋めるために、Qualispeechを紹介します。Qualispeechは、11の重要な側面と、推論や文脈的洞察を含む詳細な自然言語コメントを含む包括的な低レベルの音声品質評価データセットです。
さらに、聴覚大型言語モデル(LLM)の低レベルの音声理解能力を評価するために、Qualispeechベンチマークを提案します。
実験結果は、微調製された聴覚LLMがノイズと歪みの詳細な説明を確実に生成し、その種類と時間的特性を効果的に識別できることを示しています。
結果は、質の評価の精度と信頼性を高めるために推論を組み込む可能性をさらに強調しています。
データセットはhttps://huggingface.co/datasets/tsinghua-ee/qualispeechでリリースされます。
要約(オリジナル)
This paper explores a novel perspective to speech quality assessment by leveraging natural language descriptions, offering richer, more nuanced insights than traditional numerical scoring methods. Natural language feedback provides instructive recommendations and detailed evaluations, yet existing datasets lack the comprehensive annotations needed for this approach. To bridge this gap, we introduce QualiSpeech, a comprehensive low-level speech quality assessment dataset encompassing 11 key aspects and detailed natural language comments that include reasoning and contextual insights. Additionally, we propose the QualiSpeech Benchmark to evaluate the low-level speech understanding capabilities of auditory large language models (LLMs). Experimental results demonstrate that finetuned auditory LLMs can reliably generate detailed descriptions of noise and distortion, effectively identifying their types and temporal characteristics. The results further highlight the potential for incorporating reasoning to enhance the accuracy and reliability of quality assessments. The dataset will be released at https://huggingface.co/datasets/tsinghua-ee/QualiSpeech.
arxiv情報
著者 | Siyin Wang,Wenyi Yu,Xianzhao Chen,Xiaohai Tian,Jun Zhang,Lu Lu,Yu Tsao,Junichi Yamagishi,Yuxuan Wang,Chao Zhang |
発行日 | 2025-04-01 12:33:53+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google