要約
スイスのドイツ語は、標準的なドイツ語と互いに大きく異なる多様な方言で表される低リソースの言語です。
その結果、スイスのドイツ語を転写するには、標準的なドイツ語への翻訳が含まれます。
既存のデータセットは制御された環境で収集されており、効果的な音声からテキスト(STT)モデルが生成されますが、これらのモデルは自発的な会話スピーチに苦しんでいます。
したがって、このペーパーでは、39スイスのドイツのラジオ局とテレビ局からの実際の長いオーディオ録音を特徴とする300時間の注釈付き音声コーパスである新しいSRB-300データセットを紹介します。
さまざまな現実的な環境で記録されたすべての主要なスイス方言で自発的なスピーチをキャプチャし、以前の文レベルのコーパスの制限を克服します。
SRB-300データセットで複数のOpenai Whisperモデルを微調整し、以前のゼロショットパフォーマンスメトリックで顕著な拡張機能を達成しました。
ワードエラー率(WER)の改善は19%から33%の範囲でしたが、BLEUスコアは8%から40%増加しました。
最高の微調整されたモデルであるLarge-V3は、17.1%のWERと74.8のBLEUスコアを達成しました。
この進歩は、スイスのドイツ語およびその他の低リソース言語のための効果的で堅牢なSTTシステムを実際のコンテキストで開発するために重要です。
要約(オリジナル)
Swiss German is a low-resource language represented by diverse dialects that differ significantly from Standard German and from each other, lacking a standardized written form. As a result, transcribing Swiss German involves translating into Standard German. Existing datasets have been collected in controlled environments, yielding effective speech-to-text (STT) models, but these models struggle with spontaneous conversational speech. This paper, therefore, introduces the new SRB-300 dataset, a 300-hour annotated speech corpus featuring real-world long-audio recordings from 39 Swiss German radio and TV stations. It captures spontaneous speech across all major Swiss dialects recorded in various realistic environments and overcomes the limitation of prior sentence-level corpora. We fine-tuned multiple OpenAI Whisper models on the SRB-300 dataset, achieving notable enhancements over previous zero-shot performance metrics. Improvements in word error rate (WER) ranged from 19% to 33%, while BLEU scores increased between 8% and 40%. The best fine-tuned model, large-v3, achieved a WER of 17.1% and a BLEU score of 74.8. This advancement is crucial for developing effective and robust STT systems for Swiss German and other low-resource languages in real-world contexts.
arxiv情報
著者 | Flavio D’Intino,Hans-Peter Hutter |
発行日 | 2025-06-10 14:22:48+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google