要約
このペーパーでは、特にインド言語の文字に焦点を当てて、多言語自動音声認識 (ASR) モデルを評価する際の落とし穴について調査します。
OpenAI Whisper、Meta の MMS、Seamless、Assembly AI の Conformer などの主要な ASR モデルで採用されているテキスト正規化ルーチンと、それらがパフォーマンス メトリックに与える予期せぬ影響を調査します。
私たちの調査では、現在のテキスト正規化手法は、スペル、句読点、特殊文字の違いなどの不一致を除去することで公正な比較のために ASR 出力を標準化することを目的としていますが、インド系文字に適用すると根本的に欠陥があることが明らかになりました。
テキスト類似性スコアを使用した実証的分析と詳細な言語学的検査を通じて、これらの欠陥がインド系言語の人為的なパフォーマンス指標の向上につながることを実証しました。
最後に、ネイティブ言語の専門知識を活用して、多言語 ASR モデルのより堅牢かつ正確な評価を保証するテキスト正規化ルーチンの開発への移行を提案します。
要約(オリジナル)
This paper explores the pitfalls in evaluating multilingual automatic speech recognition (ASR) models, with a particular focus on Indic language scripts. We investigate the text normalization routine employed by leading ASR models, including OpenAI Whisper, Meta’s MMS, Seamless, and Assembly AI’s Conformer, and their unintended consequences on performance metrics. Our research reveals that current text normalization practices, while aiming to standardize ASR outputs for fair comparison, by removing inconsistencies such as variations in spelling, punctuation, and special characters, are fundamentally flawed when applied to Indic scripts. Through empirical analysis using text similarity scores and in-depth linguistic examination, we demonstrate that these flaws lead to artificially improved performance metrics for Indic languages. We conclude by proposing a shift towards developing text normalization routines that leverage native linguistic expertise, ensuring more robust and accurate evaluations of multilingual ASR models.
arxiv情報
著者 | Kavya Manohar,Leena G Pillai |
発行日 | 2024-10-02 17:40:25+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google