SD-Eval: A Benchmark Dataset for Spoken Dialogue Understanding Beyond Words

要約

音声には、内容、パラ言語、環境情報などを含むがこれらに限定されない豊富な情報が含まれます。
音声のこの包括的な性質はコミュニケーションに大きな影響を与え、人間とコンピューターの対話にとって非常に重要です。
汎用支援機能で知られるチャット指向大規模言語モデル (LLM) は、音声を含むマルチモーダル入力を処理できるように進化しました。
これらのモデルは音声の認識と分析には優れていますが、適切な応答を生成するには至らないことがよくあります。
これは、モデル評価に適したオープンソースのデータセットとメトリクスを必要とするタスク定義とモデル開発に関する原則が欠如しているためであると私たちは主張します。
このギャップを埋めるために、音声対話の理解と生成の多次元評価を目的としたベンチマーク データセットである SD-Eval を紹介します。
SD-Eval は、パラ言語および環境情報に焦点を当てており、7,303 の発話、つまり 8.76 時間の音声データが含まれています。
データは 8 つの公開データセットから集約されており、感情、アクセント、年齢、背景音の 4 つの観点を表しています。
SD-Eval ベンチマーク データセットを評価するために、3 つの異なるモデルを実装し、SD-Eval と同様のプロセスに従ってトレーニング セットを構築します。
トレーニング セットには、1,052.72 時間の音声データと 724.4k の発話が含まれています。
また、生成された応答に対して、客観的な評価手法(BLEU や ROUGE など)、主観的な評価、LLM ベースの指標を使用して総合的な評価を実施します。
パラ言語情報と環境情報で条件付けされたモデルは、客観的および主観的な尺度の両方で対応するモデルよりも優れています。
さらに、LLM ベースの指標は、従来の指標と比較して人間の評価との高い相関関係を示すことが実験によって実証されています。
https://github.com/amphionspace/SD-Eval で SD-Eval をオープンソースにしています。

要約(オリジナル)

Speech encompasses a wealth of information, including but not limited to content, paralinguistic, and environmental information. This comprehensive nature of speech significantly impacts communication and is crucial for human-computer interaction. Chat-Oriented Large Language Models (LLMs), known for their general-purpose assistance capabilities, have evolved to handle multi-modal inputs, including speech. Although these models can be adept at recognizing and analyzing speech, they often fall short of generating appropriate responses. We argue that this is due to the lack of principles on task definition and model development, which requires open-source datasets and metrics suitable for model evaluation. To bridge the gap, we present SD-Eval, a benchmark dataset aimed at multidimensional evaluation of spoken dialogue understanding and generation. SD-Eval focuses on paralinguistic and environmental information and includes 7,303 utterances, amounting to 8.76 hours of speech data. The data is aggregated from eight public datasets, representing four perspectives: emotion, accent, age, and background sound. To assess the SD-Eval benchmark dataset, we implement three different models and construct a training set following a process similar to that of SD-Eval. The training set contains 1,052.72 hours of speech data and 724.4k utterances. We also conduct a comprehensive evaluation using objective evaluation methods (e.g. BLEU and ROUGE), subjective evaluations and LLM-based metrics for the generated responses. Models conditioned with paralinguistic and environmental information outperform their counterparts in both objective and subjective measures. Moreover, experiments demonstrate that LLM-based metrics show a higher correlation with human evaluation compared to traditional metrics. We open-source SD-Eval at https://github.com/amphionspace/SD-Eval.

arxiv情報

著者 Junyi Ao,Yuancheng Wang,Xiaohai Tian,Dekun Chen,Jun Zhang,Lu Lu,Yuxuan Wang,Haizhou Li,Zhizheng Wu
発行日 2025-01-16 08:34:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SD, eess.AS パーマリンク