Spaiche: Extending State-of-the-Art ASR Models to Swiss German Dialects


NLP における最近の進歩により、私たちの日常生活における ASR システムの存在が大幅に増加しました。
ただし、多くの低リソース言語では、関連データの取得が難しいこともあり、ASR モデルは依然として改善の必要があります。
このプロジェクトは、最近公開されたスイスドイツ語音声データセットに対する最先端の ASR モデルのパフォーマンスに関する洞察を提供することで、スイスドイツ語方言の ASR モデルの研究の進歩を支援することを目的としています。
スイスとドイツのデータセットで OpenAI の Whisper モデルを微調整することで、現在の最先端の結果を上回るパフォーマンスを発揮します。


Recent breakthroughs in NLP largely increased the presence of ASR systems in our daily lives. However, for many low-resource languages, ASR models still need to be improved due in part to the difficulty of acquiring pertinent data. This project aims to help advance research in ASR models for Swiss German dialects, by providing insights about the performance of state-of-the-art ASR models on recently published Swiss German speech datasets. We propose a novel loss that takes into account the semantic distance between the predicted and the ground-truth labels. We outperform current state-of-the-art results by fine-tuning OpenAI’s Whisper model on Swiss-German datasets.


著者 Clement Sicard,Kajetan Pyszkowski,Victor Gillioz
発行日 2023-09-13 16:12:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, Google

カテゴリー: cs.CL, cs.LG, cs.SD, eess.AS パーマリンク