An Efficient Approach for Machine Translation on Low-resource Languages: A Case Study in Vietnamese-Chinese

要約

機械翻訳における最近のニューラルネットワークの増加にもかかわらず、トレーニングデータが不十分な場合、これらのネットワークはうまく機能しません。
この論文では、ベトナム – 中国などの低リソース言語での機械翻訳のアプローチを提案しました。
提案された方法は、多言語の事前訓練モデル(MBART)とベトナムと中国の単一言語の両方のコーパスの力を活用しました。
まず、バイリンガルトレーニングデータセットを使用して、アーリーバードマシン翻訳モデルを構築しました。
第二に、TF-IDF手法を使用して、並列データセットのドメインに最も関連する単一言語のコーパスから文章を選択しました。
最後に、最初のモデルを使用して、翻訳モデルのために選択された単一言語コーパスからの増強されたトレーニングデータを合成しました。
提案されたスキームは、トランスモデルと比較して8%を上回ることを示しました。
拡張データセットもモデルのパフォーマンスをプッシュしました。

要約(オリジナル)

Despite the rise of recent neural networks in machine translation, those networks do not work well if the training data is insufficient. In this paper, we proposed an approach for machine translation in low-resource languages such as Vietnamese-Chinese. Our proposed method leveraged the power of the multilingual pre-trained language model (mBART) and both Vietnamese and Chinese monolingual corpus. Firstly, we built an early bird machine translation model using the bilingual training dataset. Secondly, we used TF-IDF technique to select sentences from the monolingual corpus which are the most related to domains of the parallel dataset. Finally, the first model was used to synthesize the augmented training data from the selected monolingual corpus for the translation model. Our proposed scheme showed that it outperformed 8% compared to the transformer model. The augmented dataset also pushed the model performance.

arxiv情報

著者 Tran Ngoc Son,Nguyen Anh Tu,Nguyen Minh Tri
発行日 2025-01-31 17:11:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク