Label Aware Speech Representation Learning For Language Identification

要約

言語認識などの非意味論的タスクに対する音声表現学習アプローチでは、分類子モデルを使用した教師あり埋め込み抽出方法、または生データを使用した自己教師あり表現学習アプローチが検討されてきました。
この論文では、自己教師あり表現学習と事前学習タスクの言語ラベル情報を組み合わせる新しいフレームワークを提案します。
Label Aware Speech Representation (LASR) 学習と呼ばれるこのフレームワークは、トリプレット ベースの目的関数を使用して、自己教師あり損失関数とともに言語ラベルを組み込みます。
音声表現は、下流のタスクに合わせてさらに微調整されます。
言語認識実験は、FLEURS と Dhwani という 2 つの公開データセットで実行されます。
これらの実験では、提案された LASR フレームワークが言語識別に関して最先端のシステムよりも改善されていることを示します。
また、ノイズの多い/欠落したラベルに対する LASR アプローチの堅牢性の分析と、多言語音声認識タスクへの適用についても報告します。

要約(オリジナル)

Speech representation learning approaches for non-semantic tasks such as language recognition have either explored supervised embedding extraction methods using a classifier model or self-supervised representation learning approaches using raw data. In this paper, we propose a novel framework of combining self-supervised representation learning with the language label information for the pre-training task. This framework, termed as Label Aware Speech Representation (LASR) learning, uses a triplet based objective function to incorporate language labels along with the self-supervised loss function. The speech representations are further fine-tuned for the downstream task. The language recognition experiments are performed on two public datasets – FLEURS and Dhwani. In these experiments, we illustrate that the proposed LASR framework improves over the state-of-the-art systems on language identification. We also report an analysis of the robustness of LASR approach to noisy/missing labels as well as its application to multi-lingual speech recognition tasks.

arxiv情報

著者 Shikhar Vashishth,Shikhar Bharadwaj,Sriram Ganapathy,Ankur Bapna,Min Ma,Wei Han,Vera Axelrod,Partha Talukdar
発行日 2023-06-07 12:14:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG, cs.SD, eess.AS パーマリンク