Enhancing Whisper’s Accuracy and Speed for Indian Languages through Prompt-Tuning and Tokenization

要約

自動音声認識は、最近、Whisper などの大規模な基礎モデルによって大幅な進歩を遂げています。
ただし、これらのモデルは、インド言語などのリソースが少ない言語ではうまく動作しないことがよくあります。
この論文では、インド言語における Whisper の多言語音声認識パフォーマンスを強化するための 2 つの新しいアプローチを検討します。
まず、言語ファミリー情報を使用した迅速な調整を提案します。これにより、言語的に類似した言語における Whisper の精度が向上します。
次に、生成されるトークンの数を減らす新しいトークナイザーを導入し、それによって Whisper の推論速度を加速します。
私たちの広範な実験により、トークナイザーが推論時間を大幅に短縮し、プロンプトチューニングにより小、中、大を含むさまざまなウィスパーモデルサイズの精度が向上することが実証されました。
これらの技術を組み合わせることで、最適な WER と推論速度の間のバランスが実現されます。

要約(オリジナル)

Automatic speech recognition has recently seen a significant advancement with large foundational models such as Whisper. However, these models often struggle to perform well in low-resource languages, such as Indian languages. This paper explores two novel approaches to enhance Whisper’s multilingual speech recognition performance in Indian languages. First, we propose prompt-tuning with language family information, which enhances Whisper’s accuracy in linguistically similar languages. Second, we introduce a novel tokenizer that reduces the number of generated tokens, thereby accelerating Whisper’s inference speed. Our extensive experiments demonstrate that the tokenizer significantly reduces inference time, while prompt-tuning enhances accuracy across various Whisper model sizes, including Small, Medium, and Large. Together, these techniques achieve a balance between optimal WER and inference speed.

arxiv情報

著者 Kumud Tripathi,Raj Gothi,Pankaj Wasnik
発行日 2024-12-27 18:32:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, eess.AS パーマリンク