最近の多言語自動音声認識モデルは数千の言語をサポートすると主張していますが、低リソース言語の ASR は、二峰性音声およびテキスト トレーニング データが限られているため、依然として信頼性が非常に低いです。
多言語音声言語理解 (SLU) を向上させると、言語セマンティクスを利用して不足したトレーニング データを補うことにより、多言語 ASR の堅牢性を大幅に強化できます。これには、文脈を介して発話の曖昧さをなくしたり、言語間でのセマンティクスの類似性を利用したりすることができます。
さらに、SLU は、正式な文字体系を持たないすべての言語の約半数における包括的な音声技術にとって不可欠です。
ただし、多言語 SLU の評価は、意図の分類や言語の識別などのより浅いタスクに限定されています。
これに対処するために、102 言語の話題の音声分類と 92 言語の聴解による多肢選択式質問応答を網羅する多言語 SLU ベンチマークである Fleurs-SLU を紹介します。
私たちは、エンドツーエンドの音声分類モデルと、音声からテキストへの転写とその後の Fleurs-SLU 上の大規模言語モデルによる分類を組み合わせるカスケード システムの両方を広範囲に評価しています。
私たちの結果は、音声エンコーダが適切に事前トレーニングされていれば、話題の音声分類において競争力のあるパフォーマンスを達成できるにもかかわらず、カスケード システムが多言語 SLU タスクにおいてより優れた堅牢性を示すことを示しています。
さらに、堅牢な多言語 ASR、効果的な音声からテキストへの翻訳、および強力な多言語 SLU の間に強い相関関係があることがわかり、音響音声表現と意味論的音声表現の間の相互利点が強調されます。
While recent multilingual automatic speech recognition models claim to support thousands of languages, ASR for low-resource languages remains highly unreliable due to limited bimodal speech and text training data. Better multilingual spoken language understanding (SLU) can strengthen massively the robustness of multilingual ASR by levering language semantics to compensate for scarce training data, such as disambiguating utterances via context or exploiting semantic similarities across languages. Even more so, SLU is indispensable for inclusive speech technology in roughly half of all living languages that lack a formal writing system. However, the evaluation of multilingual SLU remains limited to shallower tasks such as intent classification or language identification. To address this, we present Fleurs-SLU, a multilingual SLU benchmark that encompasses topical speech classification in 102 languages and multiple-choice question answering through listening comprehension in 92 languages. We extensively evaluate both end-to-end speech classification models and cascaded systems that combine speech-to-text transcription with subsequent classification by large language models on Fleurs-SLU. Our results show that cascaded systems exhibit greater robustness in multilingual SLU tasks, though speech encoders can achieve competitive performance in topical speech classification when appropriately pre-trained. We further find a strong correlation between robust multilingual ASR, effective speech-to-text translation, and strong multilingual SLU, highlighting the mutual benefits between acoustic and semantic speech representations.
著者 | Fabian David Schmidt,Ivan Vulić,Goran Glavaš,David Ifeoluwa Adelani |
発行日 | 2025-01-10 17:15:38+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google