Adaptive Machine Translation with Large Language Models

要約

一貫性は、高品質の翻訳の重要な要件です。
事前に承認された用語を遵守し、ドメイン固有のプロジェクトで修正された翻訳に適応することが特に重要です。
機械翻訳 (MT) は、ドメイン適応の分野で大きな進歩を遂げました。
ただし、リアルタイムの適応は依然として困難です。
大規模言語モデル (LLM) は最近、文脈内学習の興味深い機能を示しました。そこでは、さらに微調整することなく、特定の入出力テキスト生成パターンを複製することを学習します。
翻訳ペアのリストで構成されるプロンプトを推論時に LLM に供給することにより、LLM はドメインとスタイルの特性をシミュレートできます。
この作業は、コンテキスト内学習を利用してリアルタイムの適応型 MT を改善する方法を調査することを目的としています。
私たちの広範な実験は、翻訳時に有望な結果を示しています。
たとえば、GPT-3.5 は、新しい文を翻訳しながら、一連のドメイン内の文のペアや用語に適応できます。
少数ショットのコンテキスト内学習による翻訳品質は、特に高リソース言語の場合、強力なエンコーダー/デコーダー MT システムの翻訳品質を超える可能性があることがわかります。
さらに、強力なエンコーダー/デコーダー モデルの MT をあいまい一致と組み合わせることができるかどうかを調査します。これにより、特にサポートされていない言語の翻訳品質をさらに向上させることができます。
英語からアラビア語 (EN-AR)、英語から中国語 (EN-ZH)、英語からフランス語 (EN-FR)、英語からキンヤルワンダ語 (
EN-RW)、および英語からスペイン語 (EN-ES)。

要約(オリジナル)

Consistency is a key requirement of high-quality translation. It is especially important to adhere to pre-approved terminology and adapt to corrected translations in domain-specific projects. Machine translation (MT) has achieved significant progress in the area of domain adaptation. However, real-time adaptation remains challenging. Large-scale language models (LLMs) have recently shown interesting capabilities of in-context learning, where they learn to replicate certain input-output text generation patterns, without further fine-tuning. By feeding an LLM at inference time with a prompt that consists of a list of translation pairs, it can then simulate the domain and style characteristics. This work aims to investigate how we can utilize in-context learning to improve real-time adaptive MT. Our extensive experiments show promising results at translation time. For example, GPT-3.5 can adapt to a set of in-domain sentence pairs and/or terminology while translating a new sentence. We observe that the translation quality with few-shot in-context learning can surpass that of strong encoder-decoder MT systems, especially for high-resource languages. Moreover, we investigate whether we can combine MT from strong encoder-decoder models with fuzzy matches, which can further improve translation quality, especially for less supported languages. We conduct our experiments across five diverse language pairs, namely English-to-Arabic (EN-AR), English-to-Chinese (EN-ZH), English-to-French (EN-FR), English-to-Kinyarwanda (EN-RW), and English-to-Spanish (EN-ES).

arxiv情報

著者 Yasmin Moslem,Rejwanul Haque,John D. Kelleher,Andy Way
発行日 2023-03-13 06:43:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク