Contrastive Preference Optimization: Pushing the Boundaries of LLM Performance in Machine Translation

要約

中程度のサイズの大規模言語モデル (LLM)、つまり 7B または 13B パラメーターを持つモデルは、有望な機械翻訳 (MT) パフォーマンスを示します。
ただし、ALMA のような最高のパフォーマンスを誇る 13B LLM ベースの変換モデルであっても、最先端の従来のエンコーダ/デコーダ変換モデルや GPT-4 などの大規模な LLM のパフォーマンスには及びません。
この研究では、このパフォーマンスのギャップを埋めます。
まず、MT タスクにおける LLM の教師あり微調整の欠点を評価し、人間が生成したものであるにもかかわらず、参照データに存在する品質の問題を強調します。
次に、参照翻訳を模倣する SFT とは対照的に、適切ではあるが完全ではない翻訳の生成を回避するようにモデルをトレーニングする新しいアプローチである Contrastive Preference Optimization (CPO) を導入します。
わずか 22,000 の並列文と 1,200 万のパラメーターを備えた ALMA モデルに CPO を適用すると、大幅な改善が得られます。
ALMA-R と呼ばれるその結果のモデルは、WMT’21、WMT’22、および WMT’23 テスト データセット上の WMT コンテストの優勝者および GPT-4 のパフォーマンスと同等またはそれを超えることができます。

要約(オリジナル)

Moderate-sized large language models (LLMs) — those with 7B or 13B parameters — exhibit promising machine translation (MT) performance. However, even the top-performing 13B LLM-based translation models, like ALMA, does not match the performance of state-of-the-art conventional encoder-decoder translation models or larger-scale LLMs such as GPT-4. In this study, we bridge this performance gap. We first assess the shortcomings of supervised fine-tuning for LLMs in the MT task, emphasizing the quality issues present in the reference data, despite being human-generated. Then, in contrast to SFT which mimics reference translations, we introduce Contrastive Preference Optimization (CPO), a novel approach that trains models to avoid generating adequate but not perfect translations. Applying CPO to ALMA models with only 22K parallel sentences and 12M parameters yields significant improvements. The resulting model, called ALMA-R, can match or exceed the performance of the WMT competition winners and GPT-4 on WMT’21, WMT’22 and WMT’23 test datasets.

arxiv情報

著者 Haoran Xu,Amr Sharaf,Yunmo Chen,Weiting Tan,Lingfeng Shen,Benjamin Van Durme,Kenton Murray,Young Jin Kim
発行日 2024-01-18 09:31:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク