Goodness of Pronunciation Pipelines for OOV Problem

要約

次のレポートでは、語彙/語彙拡張技術を使用して、テスト時に OOV 問題を解決する発音の良さ (GoP) 計算のパイプラインを提案します。
パイプラインは、ASR システムのさまざまなコンポーネントを使用してアクセントを定量化し、スコアとして自動的に評価します。
母国語の英語の音声でトレーニングされた ASR モデルの事後分布と、電話レベルの境界を使用して、電話レベルの発音スコアを取得します。
これをベースライン パイプラインとして使用し、3 つのパイプラインを構築して GoP 出力の UNK および SPN 音素を削除する方法を実装しました。
スコアを返すだけでなく、最終出力で不明な単語を防ぐこともできる、オンライン、オフライン、およびハイブリッド パイプライン。
オンライン方式は発話ごとに基づいており、オフライン方式は特定のデータセットの一連の OOV 単語を事前に組み込んでおり、ハイブリッド方式は上記の 2 つのアイデアを組み合わせてレキシコンを拡張し、発話ごとに作業します。
さらに、音素から事後マッピング、ベクトルとしての各発話の GoP スコア、および将来の研究で使用するために GoP パイプラインで使用される単語境界などのユーティリティを提供します。

要約(オリジナル)

In the following report we propose pipelines for Goodness of Pronunciation (GoP) computation solving OOV problem at testing time using Vocab/Lexicon expansion techniques. The pipeline uses different components of ASR system to quantify accent and automatically evaluate them as scores. We use the posteriors of an ASR model trained on native English speech, along with the phone level boundaries to obtain phone level pronunciation scores. We used this as a baseline pipeline and implemented methods to remove UNK and SPN phonemes in the GoP output by building three pipelines. The Online, Offline and Hybrid pipeline which returns the scores but also can prevent unknown words in the final output. The Online method is based per utterance, Offline method pre-incorporates a set of OOV words for a given data set and the Hybrid method combines the above two ideas to expand the lexicon as well work per utterance. We further provide utilities such as the Phoneme to posterior mappings, GoP scores of each utterance as a vector, and Word boundaries used in the GoP pipeline for use in future research.

arxiv情報

著者 Ankit Grover
発行日 2023-03-01 19:47:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SD, eess.AS パーマリンク