要約
音声言語モデルは最近、汎用音声処理システムとして大きな可能性を示しています。
このようなモデルは、音声信号に存在する感情や背景雑音など、話の内容を超えた豊富な音響情報をモデル化する機能を備えています。それにもかかわらず、広範な音響的側面に対する意識を評価する評価ベンチマークが不足しています。
このギャップを埋めるために、背景雑音、感情、話者のアイデンティティ、室内インパルス応答を含む新しい評価スイートである SALMon を導入します。
提案されたベンチマークは、検査された要素の一貫性と、それが音声テキストとどの程度一致するかを両方評価します。
私たちはモデリングベースのアプローチに従い、モデルが正しいサンプルに間違ったサンプルよりも高いスコアを与えるかどうかを測定します。
このアプローチにより、大規模なモデルであってもベンチマークの計算が高速になります。
SALMon でいくつかの音声言語モデルを評価し、評価された各方法の長所と短所を強調しました。
コードとデータは https://pages.cs.huji.ac.il/adiyoss-lab/salmon/ で公開されています。
要約(オリジナル)
Speech language models have recently demonstrated great potential as universal speech processing systems. Such models have the ability to model the rich acoustic information existing in audio signals, beyond spoken content, such as emotion, background noise, etc. Despite this, evaluation benchmarks which evaluate awareness to a wide range of acoustic aspects, are lacking. To help bridge this gap, we introduce SALMon, a novel evaluation suite encompassing background noise, emotion, speaker identity and room impulse response. The proposed benchmarks both evaluate the consistency of the inspected element and how much it matches the spoken text. We follow a modelling based approach, measuring whether a model gives correct samples higher scores than incorrect ones. This approach makes the benchmark fast to compute even for large models. We evaluated several speech language models on SALMon, thus highlighting the strengths and weaknesses of each evaluated method. We make the code and data publicly available at https://pages.cs.huji.ac.il/adiyoss-lab/salmon/ .
arxiv情報
著者 | Gallil Maimon,Amit Roth,Yossi Adi |
発行日 | 2024-11-27 18:24:57+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google