Simultaneous Machine Translation with Large Language Models

要約

大規模言語モデル (LLM) は、対話ベースの対話を通じてさまざまな自然言語処理タスクを解決する能力を実証しています。
たとえば、研究によると、LLM は高リソース言語のオフライン機械翻訳タスクで競争力のあるパフォーマンスを達成できることがわかっています。
ただし、LLM を同時機械翻訳 (SimulMT) に適用すると、さまざまなデコード パターンから生じるトレーニングと推論の不一致に関連する問題など、多くの課題が生じます。
このペーパーでは、SimulMT に LLM を利用する実現可能性を検討します。
従来のアプローチに基づいて、LLM が追加のトレーニングを必要とせずに SimulMT に参加できるようにする、シンプルかつ効果的な混合ポリシーを導入します。
さらに、完全な文と接頭辞の混合文に対する教師あり微調整 (SFT) の後、モデルは大幅なパフォーマンスの向上を示しました。
MUST-C データセットの 9 つの言語ペアで Llama2-7B-chat を使用して実施された私たちの実験は、LLM が専用の SimulMT モデルと同等の翻訳品質と遅延を達成できることを実証しました。

要約(オリジナル)

Large language models (LLM) have demonstrated their abilities to solve various natural language processing tasks through dialogue-based interactions. For instance, research indicates that LLMs can achieve competitive performance in offline machine translation tasks for high-resource languages. However, applying LLMs to simultaneous machine translation (SimulMT) poses many challenges, including issues related to the training-inference mismatch arising from different decoding patterns. In this paper, we explore the feasibility of utilizing LLMs for SimulMT. Building upon conventional approaches, we introduce a simple yet effective mixture policy that enables LLMs to engage in SimulMT without requiring additional training. Furthermore, after Supervised Fine-Tuning (SFT) on a mixture of full and prefix sentences, the model exhibits significant performance improvements. Our experiments, conducted with Llama2-7B-chat on nine language pairs from the MUST-C dataset, demonstrate that LLM can achieve translation quality and latency comparable to dedicated SimulMT models.

arxiv情報

著者 Minghan Wang,Jinming Zhao,Thuy-Trang Vu,Fatemeh Shiri,Ehsan Shareghi,Gholamreza Haffari
発行日 2023-09-13 04:06:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク