要約
理想的な音声認識モデルは、話し方 (朗読および自発的)、音声コンテキスト (公式および非公式)、および背景雑音条件 (クリーンおよび中程度) などの音声信号のさまざまな特性の下で音声を正確に書き写す機能を備えています。
このようなモデルを構築するには、多様な音声特性を含む大量のトレーニング データが必要です。
現在、インドネシアのデータは読み上げられた形式的できれいな話し言葉が大半を占めており、他の話し方の多様性を含むインドネシア語データが不足しています。
インドネシア語の自動音声認識 (ASR) を開発するために、私たちは最先端の音声認識モデル、つまり大規模多言語音声 (MMS) とささやき声に関する研究を紹介し、また、インドネシア語の音声認識を容易にするための多様性を備えたインドネシア語音声で構成されるデータセットを編集しました。
勉強。
さらに、さまざまな変動グループ間でインドネシア語音声データを転写するモデルの予測能力を調査します。
単語誤り率 (WER) と文字誤り率 (CER) の減少が示すように、さまざまな特性を持つデータセット全体で Whisper 微調整モデルによって最良の結果が得られました。
さらに、話し方のばらつきがモデルのパフォーマンスに最も影響を与えることがわかりました。
要約(オリジナル)
An ideal speech recognition model has the capability to transcribe speech accurately under various characteristics of speech signals, such as speaking style (read and spontaneous), speech context (formal and informal), and background noise conditions (clean and moderate). Building such a model requires a significant amount of training data with diverse speech characteristics. Currently, Indonesian data is dominated by read, formal, and clean speech, leading to a scarcity of Indonesian data with other speech variabilities. To develop Indonesian automatic speech recognition (ASR), we present our research on state-of-the-art speech recognition models, namely Massively Multilingual Speech (MMS) and Whisper, as well as compiling a dataset comprising Indonesian speech with variabilities to facilitate our study. We further investigate the models’ predictive ability to transcribe Indonesian speech data across different variability groups. The best results were achieved by the Whisper fine-tuned model across datasets with various characteristics, as indicated by the decrease in word error rate (WER) and character error rate (CER). Moreover, we found that speaking style variability affected model performance the most.
arxiv情報
著者 | Aulia Adila,Dessi Lestari,Ayu Purwarianti,Dipta Tanaya,Kurniawati Azizah,Sakriani Sakti |
発行日 | 2024-10-14 17:44:33+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google