Building Accurate Translation-Tailored LLMs with Language Aware Instruction Tuning

要約

翻訳に合わせて調整された大規模言語モデル (LLM) は、教師付きトレーニング済みの商用翻訳システムとさえ競合する、優れた翻訳能力を示します。
しかし、ターゲット外の翻訳は未解決の問題のままであり、特に低リソース言語では、正確な LLM ベースの翻訳モデルの開発を妨げています。
ターゲット外の翻訳の問題を軽減し、翻訳における LLM のパフォーマンスを向上させるために、最近の研究では、翻訳命令の機能を強調する高度なプロンプト戦略を設計するか、数ショットのデモンストレーションを提供することによって LLM のコンテキスト内の学習能力を活用しています。
ただし、これらの方法は基本的に、LLM が翻訳指示、特に言語方向情報に従う能力を向上させるものではありません。
この研究では、LLM の命令追従能力 (特に変換方向) を向上させる 2 段階の微調整アルゴリズムを設計します。
具体的には、まず、翻訳データセットの最尤推定損失を使用して LLM を調整し、基本的な翻訳機能を引き出します。
第 2 段階では、命令内で翻訳方向を間違った方向にランダムに置き換えることによって命令に矛盾するサンプルを構築し、それらのサンプルを学習するために余分な尤度損失を導入します。
16 のゼロショット方向にわたる LLaMA モデルの IWSLT および WMT ベンチマークの実験では、競合ベースラインである翻訳を微調整した LLama と比較して、私たちの方法がオフターゲット翻訳率 (平均 -53.3\%) を効果的に削減できることが示されています。
したがって、平均 +5.7 SacreBLEU と +16.4 BLEURT で翻訳品質が向上します。
分析の結果、私たちの方法が AlpacaEval でのモデルの一般的なタスクのパフォーマンスを維持できることがわかりました。
コードとモデルは \url{https://github.com/alphadl/LanguageAware_Tuning} でリリースされます。

要約(オリジナル)

Translation-tailored Large language models (LLMs) exhibit remarkable translation capabilities, even competing with supervised-trained commercial translation systems. However, off-target translation remains an unsolved problem, especially for low-resource languages, hindering us from developing accurate LLMs-based translation models. To mitigate the off-target translation problem and enhance the performance of LLMs on translation, recent works have either designed advanced prompting strategies to highlight the functionality of translation instructions or exploited the in-context learning ability of LLMs by feeding few-shot demonstrations. However, these methods essentially do not improve LLM’s ability to follow translation instructions, especially the language direction information. In this work, we design a two-stage fine-tuning algorithm to improve the instruction-following ability (especially the translation direction) of LLMs. Specifically, we first tune LLMs with the maximum likelihood estimation loss on the translation dataset to elicit the basic translation capabilities. In the second stage, we construct instruction-conflicting samples by randomly replacing the translation directions with a wrong one within the instruction, and then introduce an extra unlikelihood loss to learn those samples. Experiments on IWSLT and WMT benchmarks upon the LLaMA model spanning 16 zero-shot directions show that, compared to the competitive baseline — translation-finetuned LLama, our method could effectively reduce the off-target translation ratio (averagely -53.3\%), thus improving translation quality with average +5.7 SacreBLEU and +16.4 BLEURT. Analysis shows that our method could preserve the model’s general task performance on AlpacaEval. Code and models will be released at \url{https://github.com/alphadl/LanguageAware_Tuning}.

arxiv情報

著者 Changtong Zan,Liang Ding,Li Shen,Yibing Zhen,Weifeng Liu,Dacheng Tao
発行日 2024-03-21 13:47:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク