Spaiche: Extending State-of-the-Art ASR Models to Swiss German Dialects

要約

タイトル:スイスドイツ方言のASRモデルの最新技術を拡張するSpaiche

要約:

– NLPの最近の飛躍的進歩により、ASRシステムが私たちの日常生活に大きく存在しています。
– しかし、多くの低リソース言語において、適切なデータを取得する難しさのため、ASRモデルはまだ改善が必要です。
– このプロジェクトでは、最近発表されたスイスドイツ語音声データセットで最新のASRモデルの性能に関する洞察を提供することにより、スイスドイツ方言のASRモデルの研究を進めることを目的としています。
– 予測されたラベルと正解のラベル間の意味的距離を考慮した新しい損失を提案します。
– スイスドイツ語のデータセットでOpenAIのWhisperモデルを微調整することで、現在の最先端の結果を上回る成績を収めています。

要約(オリジナル)

Recent breakthroughs in NLP largely increased the presence of ASR systems in our daily lives. However, for many low-resource languages, ASR models still need to be improved due in part to the difficulty of acquiring pertinent data. This project aims to help advance research in ASR models for Swiss German dialects, by providing insights about the performance of state-of-the-art ASR models on recently published Swiss German speech datasets. We propose a novel loss that takes into account the semantic distance between the predicted and the ground-truth labels. We outperform current state-of-the-art results by fine-tuning OpenAI’s Whisper model on Swiss-German datasets.

arxiv情報

著者 Clément Sicard,Kajetan Pyszkowski,Victor Gillioz
発行日 2023-04-20 14:42:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CL, cs.LG, cs.SD, eess.AS パーマリンク