要約
自己教師あり表現学習 (SSRL) により、教師ありモデルと比較して、下流の音素認識のパフォーマンスが向上しました。
SSRL モデルのトレーニングには大量の事前トレーニング データが必要であり、リソースの少ない言語ではこれが課題となります。
一般的なアプローチは、他の言語から知識を移転することです。
代わりに、オーディオ拡張を使用して、低リソース条件で SSRL モデルを事前トレーニングし、下流タスクとして音素認識を評価することを提案します。
私たちは、ピッチの変化、ノイズの追加、アクセントのあるターゲット言語の音声と他の言語の音声といった増強技術の体系的な比較を実行しました。
私たちは、拡張(ノイズ/ピッチ)を組み合わせた拡張が、アクセントや言語知識の伝達よりも優れた拡張戦略であることを発見しました。
さまざまな量と種類の事前トレーニング データとパフォーマンスを比較しました。
ターゲットドメインの音声で事前トレーニングされたモデルと同等のパフォーマンスを達成するために、拡張データのスケーリング係数を検討しました。
私たちの調査結果は、リソースに制約のある言語では、ドメイン内合成拡張がアクセントのある音声や他の言語の音声からの知識伝達よりも優れたパフォーマンスを発揮できることを示唆しています。
要約(オリジナル)
Self-supervised representation learning (SSRL) has improved the performance on downstream phoneme recognition versus supervised models. Training SSRL models requires a large amount of pre-training data and this poses a challenge for low resource languages. A common approach is transferring knowledge from other languages. Instead, we propose to use audio augmentation to pre-train SSRL models in a low resource condition and evaluate phoneme recognition as downstream task. We performed a systematic comparison of augmentation techniques, namely: pitch variation, noise addition, accented target-language speech and other language speech. We found combined augmentations (noise/pitch) was the best augmentation strategy outperforming accent and language knowledge transfer. We compared the performance with various quantities and types of pre-training data. We examined the scaling factor of augmented data to achieve equivalent performance to models pre-trained with target domain speech. Our findings suggest that for resource constrained languages, in-domain synthetic augmentation can outperform knowledge transfer from accented or other language speech.
arxiv情報
著者 | Asad Ullah,Alessandro Ragano,Andrew Hines |
発行日 | 2023-09-22 10:09:09+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google