Model Adaptation for ASR in low-resource Indian Languages

要約

自動音声認識 (ASR) のパフォーマンスは、主に wav2vec2 などの自己教師あり学習 (SSL) ベースの音響モデルや Whisper のような大規模な多言語トレーニングによって可能になり、近年大幅に向上しました。
音声とテキストの両方の利用が制限されている低リソース言語には、依然として大きな課題が存在します。
インドの言語のように複数の方言が存在するため、これはさらに複雑になります。
ただし、多くのインド言語は同じ語族に分類でき、同じ文字と文法構造を共有します。
ここでは、多くの適応および微調整技術を適用して、十分なリソースを備えた類似言語を利用することで、データの低リソース特性を克服できます。
このようなシナリオでは、信頼性の高い ASR を構築する上で、音響やテキストなどの各モダリティがどの程度重要であるかを理解することが重要です。
言語内の音響データが豊富なため、大規模なテキストのみのコーパスの必要性が減少する場合があります。
あるいは、さまざまな事前トレーニング済み音響モデルが利用できるため、その逆もまた真である可能性があります。
この特別セッション案では、リソースの少ないインドの 2 つの言語であるベンガル語とボージュプリのデータを使用して、コミュニティがこれらのアイデアを検討することを奨励します。
これらのアプローチはインドの言語に限定されず、ソリューションは世界中で話されているさまざまな言語に適用できる可能性があります。

要約(オリジナル)

Automatic speech recognition (ASR) performance has improved drastically in recent years, mainly enabled by self-supervised learning (SSL) based acoustic models such as wav2vec2 and large-scale multi-lingual training like Whisper. A huge challenge still exists for low-resource languages where the availability of both audio and text is limited. This is further complicated by the presence of multiple dialects like in Indian languages. However, many Indian languages can be grouped into the same families and share the same script and grammatical structure. This is where a lot of adaptation and fine-tuning techniques can be applied to overcome the low-resource nature of the data by utilising well-resourced similar languages. In such scenarios, it is important to understand the extent to which each modality, like acoustics and text, is important in building a reliable ASR. It could be the case that an abundance of acoustic data in a language reduces the need for large text-only corpora. Or, due to the availability of various pretrained acoustic models, the vice-versa could also be true. In this proposed special session, we encourage the community to explore these ideas with the data in two low-resource Indian languages of Bengali and Bhojpuri. These approaches are not limited to Indian languages, the solutions are potentially applicable to various languages spoken around the world.

arxiv情報

著者 Abhayjeet Singh,Arjun Singh Mehta,Ashish Khuraishi K S,Deekshitha G,Gauri Date,Jai Nanavati,Jesuraja Bandekar,Karnalius Basumatary,Karthika P,Sandhya Badiger,Sathvik Udupa,Saurabh Kumar,Savitha,Prasanta Kumar Ghosh,Prashanthi V,Priyanka Pai,Raoul Nanavati,Rohan Saxena,Sai Praneeth Reddy Mora,Srinivasa Raghavan
発行日 2023-07-16 05:25:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, eess.AS パーマリンク