Language Barriers: Evaluating Cross-Lingual Performance of CNN and Transformer Architectures for Speech Quality Estimation

要約

客観的な音声品質モデルは、自動化された方法を使用して、人間の認識音声品質を予測することを目的としています。
ただし、言語的、知覚的、およびデータセット固有の違いにより、平均意見スコア(MO)は言語間で異なるため、横断的一般化は大きな課題のままです。
主に英語のデータで訓練されたモデルは、異なる音声、色調、および韻律特性を持つ言語に一般化するのに苦労し、客観的評価の矛盾につながる可能性があります。
この研究では、CNNベースのモデルであるNISQAとトランスベースのオーディオスペクトログラムトランス(AST)モデルの2つの音声品質モデルの横断的性能を調査します。
両方のモデルは、49,000を超える音声サンプルを含む英語のデータセットのみで訓練され、その後、ドイツ語、フランス語、北京語、スウェーデン語、オランダ語での音声で評価されました。
ピアソン相関係数(PCC)とルート平均平方根誤差(RMSE)を使用して、5つの音声品質の寸法(色、不連続性、ラウドネス、ノイズ、MO)にわたってモデルパフォーマンスを分析します。
私たちの調査結果は、ASTはより安定した言語間パフォーマンスを達成しますが、両方のモデルが顕著なバイアスを示すことを示しています。
特に、マンダリンの音声品質予測は、人間のMOSスコアと高く相関していますが、スウェーデンとオランダ語はより大きな予測の課題を提示します。
不連続性は、すべての言語でモデル化することは依然として困難です。
これらの結果は、バランスのとれた多言語データセットと、横断的一般化を改善するためのアーキテクチャ固有の適応の必要性を強調しています。

要約(オリジナル)

Objective speech quality models aim to predict human-perceived speech quality using automated methods. However, cross-lingual generalization remains a major challenge, as Mean Opinion Scores (MOS) vary across languages due to linguistic, perceptual, and dataset-specific differences. A model trained primarily on English data may struggle to generalize to languages with different phonetic, tonal, and prosodic characteristics, leading to inconsistencies in objective assessments. This study investigates the cross-lingual performance of two speech quality models: NISQA, a CNN-based model, and a Transformer-based Audio Spectrogram Transformer (AST) model. Both models were trained exclusively on English datasets containing over 49,000 speech samples and subsequently evaluated on speech in German, French, Mandarin, Swedish, and Dutch. We analyze model performance using Pearson Correlation Coefficient (PCC) and Root Mean Square Error (RMSE) across five speech quality dimensions: coloration, discontinuity, loudness, noise, and MOS. Our findings show that while AST achieves a more stable cross-lingual performance, both models exhibit noticeable biases. Notably, Mandarin speech quality predictions correlate highly with human MOS scores, whereas Swedish and Dutch present greater prediction challenges. Discontinuities remain difficult to model across all languages. These results highlight the need for more balanced multilingual datasets and architecture-specific adaptations to improve cross-lingual generalization.

arxiv情報

著者 Wafaa Wardah,Tuğçe Melike Koçak Büyüktaş,Kirill Shchegelskiy,Sebastian Möller,Robert P. Spang
発行日 2025-02-18 16:22:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク