要約
Whisper は、最先端の自動音声認識 (ASR) モデルです (Radford et al.、2022)。
スイスドイツ語の方言は Whisper のトレーニング データの一部ではないとされていますが、予備実験では Whisper がスイスドイツ語を非常にうまく転写でき、出力が標準ドイツ語への音声翻訳であることが示されました。
スイスドイツ語に対する Whisper のパフォーマンスをより深く理解するために、自動評価、定性評価、人的評価を使用して系統的に評価しています。
私たちは、SwissDial (Dogan-Sch\’onberger et al., 2021)、STT4SG-350 (Pl\’uss et al., 2023)、および Swiss Parliaments Corpus (Pl\’uss et al., 2023) の 3 つの既存のテスト セットでパフォーマンスをテストします。
al.、2021)。
さらに、短い模擬臨床面接に基づいて、この作業用の新しいテスト セットを作成します。
自動評価には単語誤り率 (WER) と BLEU を使用しました。
定性分析では、Whisper の長所と短所について議論し、いくつかの出力例を分析します。
人間による評価については、28 名の参加者にアンケートを実施し、Whisper のパフォーマンスを評価してもらいました。
私たちの評価はすべて、標準ドイツ語の出力が必要な限り、Whisper がスイスドイツ語にとって実行可能な ASR システムであることを示唆しています。
要約(オリジナル)
Whisper is a state-of-the-art automatic speech recognition (ASR) model (Radford et al., 2022). Although Swiss German dialects are allegedly not part of Whisper’s training data, preliminary experiments showed that Whisper can transcribe Swiss German quite well, with the output being a speech translation into Standard German. To gain a better understanding of Whisper’s performance on Swiss German, we systematically evaluate it using automatic, qualitative, and human evaluation. We test its performance on three existing test sets: SwissDial (Dogan-Sch\’onberger et al., 2021), STT4SG-350 (Pl\’uss et al., 2023), and Swiss Parliaments Corpus (Pl\’uss et al., 2021). In addition, we create a new test set for this work, based on short mock clinical interviews. For automatic evaluation, we used word error rate (WER) and BLEU. In the qualitative analysis, we discuss Whisper’s strengths and weaknesses and anylyze some output examples. For the human evaluation, we conducted a survey with 28 participants who were asked to evaluate Whisper’s performance. All of our evaluations suggest that Whisper is a viable ASR system for Swiss German, so long as the Standard German output is desired.
arxiv情報
著者 | Eyal Liron Dolev,Clemens Fidel Lutz,Noëmi Aepli |
発行日 | 2024-04-30 07:29:40+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google