要約
自動音声認識は、最近、Whisper などの大規模な基礎モデルによって大幅な進歩を遂げています。
ただし、これらのモデルは、インド言語などのリソースが少ない言語ではうまく動作しないことがよくあります。
この論文では、インド言語における Whisper の多言語音声認識パフォーマンスを強化するための 2 つの新しいアプローチを検討します。
まず、言語ファミリー情報を使用した迅速な調整を提案します。これにより、言語的に類似した言語における Whisper の精度が向上します。
次に、生成されるトークンの数を減らす新しいトークナイザーを導入し、それによって Whisper の推論速度を加速します。
私たちの広範な実験により、トークナイザーが推論時間を大幅に短縮し、プロンプトチューニングにより小、中、大を含むさまざまなウィスパーモデルサイズの精度が向上することが実証されました。
これらの技術を組み合わせることで、最適な WER と推論速度の間のバランスが実現されます。
要約(オリジナル)
Automatic speech recognition has recently seen a significant advancement with large foundational models such as Whisper. However, these models often struggle to perform well in low-resource languages, such as Indian languages. This paper explores two novel approaches to enhance Whisper’s multilingual speech recognition performance in Indian languages. First, we propose prompt-tuning with language family information, which enhances Whisper’s accuracy in linguistically similar languages. Second, we introduce a novel tokenizer that reduces the number of generated tokens, thereby accelerating Whisper’s inference speed. Our extensive experiments demonstrate that the tokenizer significantly reduces inference time, while prompt-tuning enhances accuracy across various Whisper model sizes, including Small, Medium, and Large. Together, these techniques achieve a balance between optimal WER and inference speed.
arxiv情報
著者 | Kumud Tripathi,Raj Gothi,Pankaj Wasnik |
発行日 | 2024-12-27 18:32:24+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google