要約
このホワイト ペーパーでは、多言語の事前トレーニング パラダイムで Conformer ベースのアーキテクチャを実験することにより、言語識別のための以前の自己教師ありアプローチを拡張します。
事前にトレーニングされた音声モデルは、言語の識別情報を下位層で最適にエンコードすることがわかりました。
さらに、これらのレイヤーから得られた埋め込みは、追加のトレーニングなしで目に見えない言語やさまざまな音響環境を分類するのに非常に堅牢であることを示しています。
VoxLingua107 データセットで事前トレーニング済みの Conformer モデルを微調整した後、現在の最先端の言語識別システムと同様の結果が得られます。
さらに、私たちのモデルは 5 分の 1 のパラメーターでこれを実現します。
このモデルは、NVIDIA NeMo ツールキットを通じてオープンソース化されています。
要約(オリジナル)
In this paper, we extend previous self-supervised approaches for language identification by experimenting with Conformer based architecture in a multilingual pre-training paradigm. We find that pre-trained speech models optimally encode language discriminatory information in lower layers. Further, we demonstrate that the embeddings obtained from these layers are significantly robust to classify unseen languages and different acoustic environments without additional training. After fine-tuning a pre-trained Conformer model on the VoxLingua107 dataset, we achieve results similar to current state-of-the-art systems for language identification. More, our model accomplishes this with 5x less parameters. We open-source the model through the NVIDIA NeMo toolkit.
arxiv情報
著者 | Travis M. Bartley,Fei Jia,Krishna C. Puvvada,Samuel Kriman,Boris Ginsburg |
発行日 | 2023-03-13 13:35:10+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google