Domain Adaptation for Arabic Machine Translation: The Case of Financial Texts

要約

ニューラル機械翻訳 (NMT) は、大規模なコーパスでトレーニングされた場合に優れたパフォーマンスを示しました。
ただし、汎用 NMT システムは、ドメイン外の変換ではパフォーマンスが低いことが実証されています。
この問題を軽減するために、最近、遺伝的 NMT システムよりも優れた翻訳品質をもたらすいくつかのドメイン適応方法が提案されています。
英語やその他のヨーロッパ言語の NMT では継続的な進歩が見られますが、アラビア語のドメイン適応は文献ではほとんど注目されていません。
したがって、現在の研究は、まだ未開拓の分野である金融ニュース記事のアラビア語 MT (AMT) に対するドメイン固有の適応の有効性を調査することを目的としています。
この目的を達成するために、さまざまなドメイン適応方法のベンチマークを行うために、金融ドメインにおけるアラビア語 – 英語 (AR-EN) 翻訳用の並列コーパスを慎重に開発しました。
次に、データセット上で ChatGPT-3.5 Turbo を含むいくつかの事前トレーニング済み NMT および大規模言語モデルを微調整しました。
結果は、適切に調整された少数のドメイン内 AR-EN セグメントを使用するだけで微調整が成功することを示しました。
ChatGPT 翻訳の品質は、自動評価および人間による評価に基づく他のモデルよりも優れていました。
私たちの知る限り、これは金融ドメイン転移学習に向けて ChatGPT を微調整する最初の作業です。
ドメイン翻訳の研究に貢献するために、私たちはデータセットと微調整されたモデルを https://huggingface.co/asas-ai/ で利用できるようにしました。

要約(オリジナル)

Neural machine translation (NMT) has shown impressive performance when trained on large-scale corpora. However, generic NMT systems have demonstrated poor performance on out-of-domain translation. To mitigate this issue, several domain adaptation methods have recently been proposed which often lead to better translation quality than genetic NMT systems. While there has been some continuous progress in NMT for English and other European languages, domain adaption in Arabic has received little attention in the literature. The current study, therefore, aims to explore the effectiveness of domain-specific adaptation for Arabic MT (AMT), in yet unexplored domain, financial news articles. To this end, we developed carefully a parallel corpus for Arabic-English (AR- EN) translation in the financial domain for benchmarking different domain adaptation methods. We then fine-tuned several pre-trained NMT and Large Language models including ChatGPT-3.5 Turbo on our dataset. The results showed that the fine-tuning is successful using just a few well-aligned in-domain AR-EN segments. The quality of ChatGPT translation was superior than other models based on automatic and human evaluations. To the best of our knowledge, this is the first work on fine-tuning ChatGPT towards financial domain transfer learning. To contribute to research in domain translation, we made our datasets and fine-tuned models available at https://huggingface.co/asas-ai/.

arxiv情報

著者 Emad A. Alghamdi,Jezia Zakraoui,Fares A. Abanmy
発行日 2023-09-22 13:37:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク