Bridging Dialects: Translating Standard Bangla to Regional Variants Using Neural Models

要約

バングラ語には多くの地域の方言が含まれており、その文化がさらに豊かになっています。
バングラ語を地域の方言に翻訳することは、チッタゴン、シレット、バリシャル、ノアカリ、ミメンシンなどの地域間で語彙、発音、文章の構造が大きく異なるため、困難を伴います。
これらの方言は、地域のアイデンティティにとって不可欠であるにもかかわらず、技術的応用においては表現されていません。
この研究では、BanglaT5、mT5、mBART50 などのニューラル機械翻訳 (NMT) モデルを使用して標準バングラ語をこれらの方言に翻訳することで、このギャップに対処しています。
この活動は、言語の多様性を維持し、方言話者間のコミュニケーションを改善する必要性によって動機づけられています。
モデルは、さまざまな方言にわたる 32,500 文を含む「Vashantor」データセットを使用して微調整され、文字誤り率 (CER) と単語誤り率 (WER) メトリクスを通じて評価されました。
BanglaT5 は、CER 12.3%、WER 15.7% という優れたパフォーマンスを示し、方言のニュアンスを捕捉する際のその有効性を強調しました。
この研究の成果は、地域の方言をサポートし、言語の多様性を促進する包括的な言語技術の開発に貢献します。

要約(オリジナル)

The Bangla language includes many regional dialects, adding to its cultural richness. The translation of Bangla Language into regional dialects presents a challenge due to significant variations in vocabulary, pronunciation, and sentence structure across regions like Chittagong, Sylhet, Barishal, Noakhali, and Mymensingh. These dialects, though vital to local identities, lack of representation in technological applications. This study addresses this gap by translating standard Bangla into these dialects using neural machine translation (NMT) models, including BanglaT5, mT5, and mBART50. The work is motivated by the need to preserve linguistic diversity and improve communication among dialect speakers. The models were fine-tuned using the ‘Vashantor’ dataset, containing 32,500 sentences across various dialects, and evaluated through Character Error Rate (CER) and Word Error Rate (WER) metrics. BanglaT5 demonstrated superior performance with a CER of 12.3% and WER of 15.7%, highlighting its effectiveness in capturing dialectal nuances. The outcomes of this research contribute to the development of inclusive language technologies that support regional dialects and promote linguistic diversity.

arxiv情報

著者 Md. Arafat Alam Khandaker,Ziyan Shirin Raha,Bidyarthi Paul,Tashreef Muhammad
発行日 2025-01-10 06:50:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク