Spaiche: Extending State-of-the-Art ASR Models to Swiss German Dialects

要約

NLP における最近の進歩により、私たちの日常生活における ASR システムの存在が大幅に増加しました。
ただし、多くの低リソース言語では、関連データの取得が難しいこともあり、ASR モデルは依然として改善の必要があります。
このプロジェクトは、最近公開されたスイスドイツ語音声データセットに対する最先端の ASR モデルのパフォーマンスに関する洞察を提供することで、スイスドイツ語方言の ASR モデルの研究の進歩を支援することを目的としています。
我々は、予測ラベルとグラウンドトゥルースラベルの間の意味論的な距離を考慮した新しい損失を提案します。
スイスとドイツのデータセットで OpenAI の Whisper モデルを微調整することで、現在の最先端の結果を上回るパフォーマンスを発揮します。

要約(オリジナル)

Recent breakthroughs in NLP largely increased the presence of ASR systems in our daily lives. However, for many low-resource languages, ASR models still need to be improved due in part to the difficulty of acquiring pertinent data. This project aims to help advance research in ASR models for Swiss German dialects, by providing insights about the performance of state-of-the-art ASR models on recently published Swiss German speech datasets. We propose a novel loss that takes into account the semantic distance between the predicted and the ground-truth labels. We outperform current state-of-the-art results by fine-tuning OpenAI’s Whisper model on Swiss-German datasets.

arxiv情報

著者 Clement Sicard,Kajetan Pyszkowski,Victor Gillioz
発行日 2023-09-13 16:12:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG, cs.SD, eess.AS パーマリンク