VBD-MT Chinese-Vietnamese Translation Systems for VLSP 2022

要約

VLSP 2022 機械翻訳共有タスクに参加したシステムを紹介します。
今年の共通課題では、中国語→ベトナム語、ベトナム語→中国語の両方の翻訳課題に参加しました。
当社は、強力な多言語ノイズ除去事前トレーニング済みモデル mBART を備えたニューラルベースの Transformer モデルに基づいてシステムを構築します。
このシステムは、利用可能な大規模な単言語データを活用する逆翻訳のサンプリング方法によって強化されています。
さらに、アンサンブルや後処理など、翻訳品質を向上させるために他のいくつかの方法が適用されます。
公開テスト セットでは、ベトナム語中国語で 38.9 BLEU、ベトナム語中国語で 38.0 BLEU を達成しており、いくつかの強力なベースラインを上回っています。

要約(オリジナル)

We present our systems participated in the VLSP 2022 machine translation shared task. In the shared task this year, we participated in both translation tasks, i.e., Chinese-Vietnamese and Vietnamese-Chinese translations. We build our systems based on the neural-based Transformer model with the powerful multilingual denoising pre-trained model mBART. The systems are enhanced by a sampling method for backtranslation, which leverage large scale available monolingual data. Additionally, several other methods are applied to improve the translation quality including ensembling and postprocessing. We achieve 38.9 BLEU on ChineseVietnamese and 38.0 BLEU on VietnameseChinese on the public test sets, which outperform several strong baselines.

arxiv情報

著者 Hai Long Trieu,Song Kiet Bui,Tan Minh Tran,Van Khanh Tran,Hai An Nguyen
発行日 2023-08-15 07:10:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク