Together We Can: Multilingual Automatic Post-Editing for Low-Resource Languages

要約

この探索的研究では、リソースの少ないインド・アーリア語の機械翻訳の品質を向上させるための多言語自動ポスト編集 (APE) システムの可能性を調査します。
英語-マラーティー語および英語-ヒンディー語という 2 つの密接に関連した言語ペアに焦点を当て、言語の類似性を利用して堅牢な多言語 APE モデルを開発します。
言語間の転送を容易にするために、ヒンディー語-マラーティー語およびマラーティー語-ヒンディー語の合成 APE トリプレットを生成します。
さらに、品質評価 (QE)-APE マルチタスク学習フレームワークを組み込みます。
実験結果は、APE と QE の相補的な性質を強調していますが、QE-APE マルチタスク学習が効果的なドメイン適応を促進することも観察しています。
私たちの実験では、多言語 APE モデルが、対応する英語-ヒンディー語および英語-マラーティー語の単一ペア モデルよりも、それぞれ $2.5$ および $2.39$ TER ポイント優れたパフォーマンスを示し、マルチタスク学習 ($
+1.29$ および $+1.44$ TER ポイント)、データ拡張 ($+0.53$ および $+0.45$ TER ポイント)、ドメイン適応 ($+0.35$ および $+0.45$ TER ポイント)。
この研究中に得られた合成データ、コード、モデルを https://github.com/cfiltnlp/Multilingual-APE で公開します。

要約(オリジナル)

This exploratory study investigates the potential of multilingual Automatic Post-Editing (APE) systems to enhance the quality of machine translations for low-resource Indo-Aryan languages. Focusing on two closely related language pairs, English-Marathi and English-Hindi, we exploit the linguistic similarities to develop a robust multilingual APE model. To facilitate cross-linguistic transfer, we generate synthetic Hindi-Marathi and Marathi-Hindi APE triplets. Additionally, we incorporate a Quality Estimation (QE)-APE multi-task learning framework. While the experimental results underline the complementary nature of APE and QE, we also observe that QE-APE multitask learning facilitates effective domain adaptation. Our experiments demonstrate that the multilingual APE models outperform their corresponding English-Hindi and English-Marathi single-pair models by $2.5$ and $2.39$ TER points, respectively, with further notable improvements over the multilingual APE model observed through multi-task learning ($+1.29$ and $+1.44$ TER points), data augmentation ($+0.53$ and $+0.45$ TER points) and domain adaptation ($+0.35$ and $+0.45$ TER points). We release the synthetic data, code, and models accrued during this study publicly at https://github.com/cfiltnlp/Multilingual-APE.

arxiv情報

著者 Sourabh Deoghare,Diptesh Kanojia,Pushpak Bhattacharyya
発行日 2024-10-23 15:37:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク