CantonMT: Cantonese to English NMT Platform with Fine-Tuned Models Using Synthetic Back-Translation Data

要約

低リソース言語のニューラル機械翻訳 (NMT) は、NLP 研究者にとって依然として困難な課題です。
この作業では、広東語から英語への新しい言語翻訳方向への逆翻訳による標準的なデータ拡張手法を導入します。
限られた量の実データと、OpusMT、NLLB、mBART などの逆変換を使用して生成した合成データを使用して微調整したモデルを紹介します。
語彙ベースや埋め込みベースなど、さまざまなメトリクスを使用して自動評価を実行しました。
さらに。
私たちは、この\textsc{ CantonMT} 研究プロジェクトに含めたモデル用のユーザーフレンドリーなインターフェイスを作成し、広東語から英語への MT 研究を促進するために利用できるようにしています。
研究者は、オープンソース\textsc{CantonMT}ツールキット\url{https://github.com/kenrickkung/CantoneseTranslation}を介して、このプラットフォームにさらにモデルを追加できます。

要約(オリジナル)

Neural Machine Translation (NMT) for low-resource languages is still a challenging task in front of NLP researchers. In this work, we deploy a standard data augmentation methodology by back-translation to a new language translation direction Cantonese-to-English. We present the models we fine-tuned using the limited amount of real data and the synthetic data we generated using back-translation including OpusMT, NLLB, and mBART. We carried out automatic evaluation using a range of different metrics including lexical-based and embedding-based. Furthermore. we create a user-friendly interface for the models we included in this\textsc{ CantonMT} research project and make it available to facilitate Cantonese-to-English MT research. Researchers can add more models into this platform via our open-source\textsc{ CantonMT} toolkit \url{https://github.com/kenrickkung/CantoneseTranslation}.

arxiv情報

著者 Kung Yin Hong,Lifeng Han,Riza Batista-Navarro,Goran Nenadic
発行日 2024-06-04 13:31:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク