Whistle: Data-Efficient Multilingual and Crosslingual Speech Recognition via Weakly Phonetic Supervision

要約

多言語および相互自動音声認識(MCL-ASR) – 音声またはグラフェミックの転写を備えた監視された事前削除、および自己監視前の前orainsには3つのアプローチが存在します。
私たちは、音声監督を伴う事前にMCL-ASRで過小評価されているのに対し、概念的には異なる言語間の情報共有にとってより有利であることがわかります。
このペーパーでは、ホイッスルと呼ばれるデータ効率の高いMCL-ASRに向けて弱い音声監督を伴う事前トレーニングのアプローチを探ります。
ゴールドスタンダードのヒトで検証された音声転写産物の要件を緩和し、言語のグラフェメから音量間(G2P)モデルを活用することにより、国際的な音声アルファベット(IPA)ベースの転写を取得します。
CV-Lang10と呼ばれるCommonVoiceデータセットに基づいて、10のSEES言語と2つの目に見えない言語を使用して、一般的な実験セットアップを構築します。
CV-Lang10で一連の実験が行われ、MCL-ASRの共通セットアップに基づく3つのアプローチを可能な限り公平に比較​​します。
実験は、MCL-ASRの音素ベースのモデル(ホイッスル)の利点を示しています。見た言語の音声認識、異なる量の少数のデータを持つ目に見えない言語の交差的パフォーマンス、壊滅的な忘却の克服、トレーニング効率を示しています。
トレーニングデータがより制限されている場合、音素の監督は、サブワードの監督と自己監視と比較してより良い結果を達成し、それによってより高いデータ効率を提供することがわかっています。
再現性をサポートし、この方向に沿った将来の研究を促進するために、https://github.com/thu-spmi/cat/tree/master/egs/cv-lang10でホイッスルのパイプライン全体のコード、モデル、データをリリースします。

要約(オリジナル)

There exist three approaches for multilingual and crosslingual automatic speech recognition (MCL-ASR) – supervised pretraining with phonetic or graphemic transcription, and self-supervised pretraining. We find that pretraining with phonetic supervision has been underappreciated so far for MCL-ASR, while conceptually it is more advantageous for information sharing between different languages. This paper explores the approach of pretraining with weakly phonetic supervision towards data-efficient MCL-ASR, which is called Whistle. We relax the requirement of gold-standard human-validated phonetic transcripts, and obtain International Phonetic Alphabet (IPA) based transcription by leveraging the LanguageNet grapheme-to-phoneme (G2P) models. We construct a common experimental setup based on the CommonVoice dataset, called CV-Lang10, with 10 seen languages and 2 unseen languages. A set of experiments are conducted on CV-Lang10 to compare, as fair as possible, the three approaches under the common setup for MCL-ASR. Experiments demonstrate the advantages of phoneme-based models (Whistle) for MCL-ASR, in terms of speech recognition for seen languages, crosslingual performance for unseen languages with different amounts of few-shot data, overcoming catastrophic forgetting, and training efficiency. It is found that when training data is more limited, phoneme supervision can achieve better results compared to subword supervision and self-supervision, thereby providing higher data-efficiency. To support reproducibility and promote future research along this direction, we release the code, models and data for the entire pipeline of Whistle at https://github.com/thu-spmi/CAT/tree/master/egs/cv-lang10.

arxiv情報

著者 Saierdaer Yusuyin,Te Ma,Hao Huang,Wenbo Zhao,Zhijian Ou
発行日 2025-03-27 16:38:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SD, eess.AS パーマリンク