Multilingual Neural Machine Translation System for Indic to Indic Languages

要約

この論文では、サマナンタル コーパスに実装され、フローレス 200 コーパスで分析された 11 の IL のインド語からインド語 (IL-IL) MNMT ベースライン モデルを示します。
すべてのモデルは BLEU スコアを使用して評価されます。
さらに、言語は東インド・アーリア語 (EI)、ドラヴィダ語 (DR)、西インド・アーリア語 (WI) の 3 つのグループに分類されます。
MNMT モデルの効率に対する言語関連性の影響が研究されています。
英語 (EN) から IL までの大規模なコーパスが存在するため、EN をピボットとして使用する MNMT IL-IL モデルも構築および検証されます。
これを達成するために、関連言語の使用の有無にかかわらず、英語 – インド語 (EN-IL) モデルも開発されています。
結果から、関連言語の使用は WI グループにとってのみ有益である一方、EI グループにとっては有害であり、DR グループに対しては決定的な影響を示さないが、EN-IL モデルには有益であることが明らかになりました。
したがって、関連する言語グループはピボット MNMT モデルの開発に使用されます。
さらに、IL コーパスは、対応するスクリプトから修正された ITRANS スクリプトに音訳され、以前のアプローチからの最良の MNMT モデルは、音訳されたコーパスに基づいて構築されます。
ピボット モデルを使用すると、MNMT ベースラインが大幅に改善され、AS-TA は最小 BLEU スコアを達成し、PA-HI は最大スコアを達成することが観察されます。
言語の中で、AS、ML、および TA は最も低い BLEU スコアを達成しますが、HI、PA、および GU は最高のパフォーマンスを示します。
音訳も、いくつかの例外を除いてモデルに役立ちます。
すべての言語において、スコアの最高の増加は ML、TA、および BN で観察され、最悪の平均増加は KN、HI、および PA で観察されます。
得られた最良のモデルは、PAWI 音訳コーパスでトレーニングされた PA-HI 言語ペアで、24.29 BLEU を与えます。

要約(オリジナル)

This paper gives an Indic-to-Indic (IL-IL) MNMT baseline model for 11 ILs implemented on the Samanantar corpus and analyzed on the Flores-200 corpus. All the models are evaluated using the BLEU score. In addition, the languages are classified under three groups namely East Indo- Aryan (EI), Dravidian (DR), and West Indo-Aryan (WI). The effect of language relatedness on MNMT model efficiency is studied. Owing to the presence of large corpora from English (EN) to ILs, MNMT IL-IL models using EN as a pivot are also built and examined. To achieve this, English- Indic (EN-IL) models are also developed, with and without the usage of related languages. Results reveal that using related languages is beneficial for the WI group only, while it is detrimental for the EI group and shows an inconclusive effect on the DR group, but it is useful for EN-IL models. Thus, related language groups are used to develop pivot MNMT models. Furthermore, the IL corpora are transliterated from the corresponding scripts to a modified ITRANS script, and the best MNMT models from the previous approaches are built on the transliterated corpus. It is observed that the usage of pivot models greatly improves MNMT baselines with AS-TA achieving the minimum BLEU score and PA-HI achieving the maximum score. Among languages, AS, ML, and TA achieve the lowest BLEU score, whereas HI, PA, and GU perform the best. Transliteration also helps the models with few exceptions. The best increment of scores is observed in ML, TA, and BN and the worst average increment is observed in KN, HI, and PA, across all languages. The best model obtained is the PA-HI language pair trained on PAWI transliterated corpus which gives 24.29 BLEU.

arxiv情報

著者 Sudhansu Bala Das,Divyajyoti Panda,Tapas Kumar Mishra,Bidyut Kr. Patra,Asif Ekbal
発行日 2023-06-22 06:44:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク