Exploration of Language Dependency for Japanese Self-Supervised Speech Representation Models



– 自己教師あり学習(SSL)は、単一言語だけでなく、クロスリンガルな環境でも劇的な成功を収めています。
– しかし、一般的に、2つの環境が個別に研究されているため、クロスリンガルモデルが単一言語モデルと比較してどの程度効果的であるかについての研究はほとんど行われていません。
– 本論文では、日本語の自動音声認識(ASR)タスクを用いて、クロスリンガルモデルと単一言語モデルのASR性能を比較し、アコースティックドメインをできるだけ同一に保ちます。
– さらに、日本語で収集されたラベルなしデータが、数万時間の英語や多言語データで事前学習されたクロスリンガルモデルと同等の性能を達成するためにどの程度必要かを検討します。
– 最後に、日本語におけるSSLの有効性を幅広く調査し、複数のASRタスクで最先端の性能を実証します。
– 日本語に対する包括的なSSLの研究がないため、この研究が日本語のSSL研究を導くことを望みます。


Self-supervised learning (SSL) has been dramatically successful not only in monolingual but also in cross-lingual settings. However, since the two settings have been studied individually in general, there has been little research focusing on how effective a cross-lingual model is in comparison with a monolingual model. In this paper, we investigate this fundamental question empirically with Japanese automatic speech recognition (ASR) tasks. First, we begin by comparing the ASR performance of cross-lingual and monolingual models for two different language tasks while keeping the acoustic domain as identical as possible. Then, we examine how much unlabeled data collected in Japanese is needed to achieve performance comparable to a cross-lingual model pre-trained with tens of thousands of hours of English and/or multilingual data. Finally, we extensively investigate the effectiveness of SSL in Japanese and demonstrate state-of-the-art performance on multiple ASR tasks. Since there is no comprehensive SSL study for Japanese, we hope this study will guide Japanese SSL research.


著者 Takanori Ashihara,Takafumi Moriya,Kohei Matsuura,Tomohiro Tanaka
発行日 2023-05-09 06:28:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CL, cs.SD, eess.AS パーマリンク