MT-PATCHER: Selective and Extendable Knowledge Distillation from Large Language Models for Machine Translation

要約

大規模言語モデル (LLM) は、機械翻訳 (MT) の分野で強力な能力を発揮していますが、高い計算コストと遅延という問題があります。
したがって、翻訳知識を巨大な LLM から中規模の機械翻訳モデルに移すことは、有望な研究の方向性です。
しかし、伝統的な知識の蒸留方法では、生徒と教師のモデルの能力が考慮されていないため、学習した知識を生徒モデルに繰り返し教え、新しい文脈や知識に拡張することができません。
この論文では、選択的、包括的、そして積極的な方法で LLM から既存の MT モデルに知識を転送する MT-Patcher と呼ばれるフレームワークを提案します。
生徒の MT モデルの現在の翻訳能力を考慮して、教師から翻訳全体を抽出するのではなく、翻訳エラーのみを特定して修正します。
LLM の優れた言語能力を活用して、私たちは LLM 教師に、多様な文脈を総合し、生徒の潜在的な間違いをより多く予測するように指導します。
特定の言語現象と一般的な MT ベンチマークの両方の翻訳に関する実験結果は、約 10% の例で学生の MT モデルを微調整すると、従来の知識蒸留方法と同等の結果を達成でき、潜在的なエラーと多様なコンテキストを合成することで、目に見えないコンテキストやさまざまなコンテキストでの翻訳パフォーマンスがさらに向上することを示しています。
言葉。

要約(オリジナル)

Large Language Models (LLM) have demonstrated their strong ability in the field of machine translation (MT), yet they suffer from high computational cost and latency. Therefore, transferring translation knowledge from giant LLMs to medium-sized machine translation models is a promising research direction. However, traditional knowledge distillation methods do not take the capability of student and teacher models into consideration, therefore repeatedly teaching student models on the knowledge they have learned, and failing to extend to novel contexts and knowledge. In this paper, we propose a framework called MT-Patcher, which transfers knowledge from LLMs to existing MT models in a selective, comprehensive and proactive manner. Considering the current translation ability of student MT models, we only identify and correct their translation errors, instead of distilling the whole translation from the teacher. Leveraging the strong language abilities of LLMs, we instruct LLM teachers to synthesize diverse contexts and anticipate more potential errors for the student. Experiment results on translating both specific language phenomena and general MT benchmarks demonstrate that finetuning the student MT model on about 10% examples can achieve comparable results to the traditional knowledge distillation method, and synthesized potential errors and diverse contexts further improve translation performances on unseen contexts and words.

arxiv情報

著者 Jiahuan Li,Shanbo Cheng,Shujian Huang,Jiajun Chen
発行日 2024-03-14 16:07:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク