Character-Level Bangla Text-to-IPA Transcription Using Transformer Architecture with Sequence Alignment

要約

International Phonetic Alphabet (IPA) は言語の学習と理解に不可欠であり、ユーザーの正確な発音と理解を助けます。
さらに、言語療法、言語研究、正確な音訳、テキスト読み上げシステムの開発において極めて重要な役割を果たしており、さまざまな分野にわたって不可欠なツールとなっています。
バングラ語は広く使用されている言語の 1 つとして 7 位にあるため、その分野で IPA の必要性が生じています。
その IPA マッピングは手動でキャプチャするにはあまりにも多様であるため、この分野では人工知能と機械学習が必要になります。
この研究では、異なる単語に関連する IPA のバリエーションがほぼゼロであるため、文字および記号レベルでトランスフォーマーベースのシーケンスツーシーケンス モデルを利用して、各バングラ語の IPA を取得しました。
私たちのトランスフォーマー モデルは、単一のデコーダー層とエンコーダー層のみを備えた 850 万個のパラメーターのみで構成されていました。
さらに、テキスト内の句読点と外国語の出現を処理するために、必要な計算リソースを削減しながら、モデルがバングラ語から区別することを学習できないため、手動マッピングを利用しました。
最後に、文コンポーネント IPA の相対的な位置を維持し、結合された IPA を生成することで、DataVerse Challenge – ITVerse 2023 の公開ランキングで単語誤り率 0.10582 でトップの地位を獲得しました (https://www.kaggle)
.com/competitions/dataverse_2023/)。

要約(オリジナル)

The International Phonetic Alphabet (IPA) is indispensable in language learning and understanding, aiding users in accurate pronunciation and comprehension. Additionally, it plays a pivotal role in speech therapy, linguistic research, accurate transliteration, and the development of text-to-speech systems, making it an essential tool across diverse fields. Bangla being 7th as one of the widely used languages, gives rise to the need for IPA in its domain. Its IPA mapping is too diverse to be captured manually giving the need for Artificial Intelligence and Machine Learning in this field. In this study, we have utilized a transformer-based sequence-to-sequence model at the letter and symbol level to get the IPA of each Bangla word as the variation of IPA in association of different words is almost null. Our transformer model only consisted of 8.5 million parameters with only a single decoder and encoder layer. Additionally, to handle the punctuation marks and the occurrence of foreign languages in the text, we have utilized manual mapping as the model won’t be able to learn to separate them from Bangla words while decreasing our required computational resources. Finally, maintaining the relative position of the sentence component IPAs and generation of the combined IPA has led us to achieve the top position with a word error rate of 0.10582 in the public ranking of DataVerse Challenge – ITVerse 2023 (https://www.kaggle.com/competitions/dataverse_2023/).

arxiv情報

著者 Jakir Hasan,Shrestha Datta,Ameya Debnath
発行日 2023-11-07 08:20:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク