人類の最も古い言語の 1 つであるサンスクリット語には、数千年にわたって蓄積されてきた、さまざまなテーマに関する膨大な書籍や写本のコレクションがあります。
ただし、AI システムのトレーニングに不可欠なデジタル コンテンツ (音声とテキスト) は大幅に制限されています。
さらに、その複雑な言語学により、より幅広いアクセシビリティを実現する堅牢な NLP ツールを開発することが困難になります。
これらの制約を考慮して、OpenAI の Whisper モデルに転移学習メカニズムを採用することにより、サンスクリット語の自動音声認識モデルを開発しました。
ハイパーパラメーターを慎重に最適化した後、Vaksancayah データセットで単語誤り率 15.42% を達成する転移学習モデルで有望な結果が得られました。
私たちのモデルのオンライン デモは一般公開されており、そのパフォーマンスを直接評価することができるため、現代におけるサンスクリット語学習のアクセシビリティと技術サポートの向上への道が開かれます。
Sanskrit, one of humanity’s most ancient languages, has a vast collection of books and manuscripts on diverse topics that have been accumulated over millennia. However, its digital content (audio and text), which is vital for the training of AI systems, is profoundly limited. Furthermore, its intricate linguistics make it hard to develop robust NLP tools for wider accessibility. Given these constraints, we have developed an automatic speech recognition model for Sanskrit by employing transfer learning mechanism on OpenAI’s Whisper model. After carefully optimising the hyper-parameters, we obtained promising results with our transfer-learned model achieving a word error rate of 15.42% on Vaksancayah dataset. An online demo of our model is made available for the use of public and to evaluate its performance firsthand thereby paving the way for improved accessibility and technological support for Sanskrit learning in the modern era.
著者 | Bidit Sadhukhan,Swami Punyeshwarananda |
発行日 | 2025-01-17 08:20:32+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google