要約
この論文では、あらゆる言語の音声を国際音声文字 (IPA) に転写するための最先端のモデルを紹介します。
話し言葉を IPA に書き写すことは、言語文書化において不可欠ではありますが、時間のかかるプロセスであり、このプロセスを部分的に自動化するだけでも、絶滅の危機に瀕している言語の文書化を大幅にスピードアップできる可能性があります。
以前の最良の speech-to-IPA モデル (Wav2Vec2Phoneme) と同様に、このモデルは wav2vec 2.0 に基づいており、音声入力から IPA を予測するように微調整されています。
CommonVoice 11.0 の 7 言語のトレーニング データを使用し、半自動的に IPA に転写されます。
このトレーニング データセットは Wav2Vec2Phoneme よりもはるかに小さいですが、その品質が高いため、モデルは同等以上の結果を達成できます。
さらに、ユニバーサル Speech-to-IPA モデルの品質が人間のアノテーターの品質に近いことを示します。
要約(オリジナル)
This paper presents a state-of-the-art model for transcribing speech in any language into the International Phonetic Alphabet (IPA). Transcription of spoken languages into IPA is an essential yet time-consuming process in language documentation, and even partially automating this process has the potential to drastically speed up the documentation of endangered languages. Like the previous best speech-to-IPA model (Wav2Vec2Phoneme), our model is based on wav2vec 2.0 and is fine-tuned to predict IPA from audio input. We use training data from seven languages from CommonVoice 11.0, transcribed into IPA semi-automatically. Although this training dataset is much smaller than Wav2Vec2Phoneme’s, its higher quality lets our model achieve comparable or better results. Furthermore, we show that the quality of our universal speech-to-IPA models is close to that of human annotators.
arxiv情報
著者 | Chihiro Taguchi,Yusuke Sakai,Parisa Haghani,David Chiang |
発行日 | 2023-08-07 21:29:51+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google