Developing Acoustic Models for Automatic Speech Recognition in Swedish

要約

この論文は、訓練可能なシステムを使用した自動連続音声認識に関するものです。
この研究の目的は、スウェーデン語の音声モデルの音響モデルを構築することです。
これは、隠れマルコフ モデルを採用し、SpeechDat データベースを使用してパラメータをトレーニングすることで行われます。
音響モデリングは音声レベルで考案されており、モデルの評価には単純化されたタスク (数字と自然数の認識) が考慮されていますが、一般的な音声認識アプリケーションが可能です。
コンテキスト非依存モデルとコンテキスト依存モデルの 2 つのバリエーションを含む、さまざまな種類の電話モデルがテストされています。
さらに、システムパラメータの一部を調整するためにバイグラム言語モデルを使用して多くの実験が行われてきました。
性別、年齢、方言が異なるさまざまな話者サブセットに対するシステムのパフォーマンスも調べられました。
結果は以前の同様の研究と比較され、顕著な改善が示されています。

要約(オリジナル)

This paper is concerned with automatic continuous speech recognition using trainable systems. The aim of this work is to build acoustic models for spoken Swedish. This is done employing hidden Markov models and using the SpeechDat database to train their parameters. Acoustic modeling has been worked out at a phonetic level, allowing general speech recognition applications, even though a simplified task (digits and natural number recognition) has been considered for model evaluation. Different kinds of phone models have been tested, including context independent models and two variations of context dependent models. Furthermore many experiments have been done with bigram language models to tune some of the system parameters. System performance over various speaker subsets with different sex, age and dialect has also been examined. Results are compared to previous similar studies showing a remarkable improvement.

arxiv情報

著者 Giampiero Salvi
発行日 2024-04-25 12:03:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68T10, cs.AI, cs.SD, eess.AS, I.2.0 パーマリンク