要約
この論文では、英語でのパフォーマンスを損なうことなく、ヒンディー語のクエリを効果的に処理できる英語自動音声認識(ASR)システムを開発するための新しいアプローチを提示します。
Splithead with Conters(SHA)モデルと呼ばれる新しい音響モデル(AM)を提案します。言語間で共有された隠れ層と、自己触媒メカニズムを介して組み合わされた言語固有の投影層を特徴としています。
このメカニズムは、入力データに基づいて各言語の重量を推定し、それに応じて対応する言語固有の投影層を比較検討します。
さらに、英語と音訳されたヒンディー語のテキストコーパスの両方からN-Gramモデルを補間する言語モデリングアプローチを提案します。
私たちの結果は、私たちのアプローチの有効性を示しており、単一言語の英語モデルと比較した場合、それぞれヒンディー語と英語のテストセットでワードエラー率が69.3%および5.7%減少しています。
要約(オリジナル)
In this paper, we present a novel approach to developing an English Automatic Speech Recognition (ASR) system that can effectively handle Hindi queries, without compromising its performance on English. We propose a novel acoustic model (AM), referred to as SplitHead with Attention (SHA) model, features shared hidden layers across languages and language-specific projection layers combined via a self-attention mechanism. This mechanism estimates the weight for each language based on input data and weighs the corresponding language-specific projection layers accordingly. Additionally, we propose a language modeling approach that interpolates n-gram models from both English and transliterated Hindi text corpora. Our results demonstrate the effectiveness of our approach, with a 69.3% and 5.7% relative reduction in word error rate on Hindi and English test sets respectively when compared to a monolingual English model.
arxiv情報
著者 | Purvi Agrawal,Vikas Joshi,Bharati Patidar,Ankur Gupta,Rupesh Kumar Mehta |
発行日 | 2025-03-10 16:48:51+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google