CRPO: Confidence-Reward Driven Preference Optimization for Machine Translation

要約

大規模言語モデル (LLM) は、自然言語処理タスクにおいて大きな可能性を示していますが、機械翻訳 (MT) への適用は、英語中心のデータでの事前トレーニングとヒューマン フィードバックからの強化学習 (RLHF) の複雑さのため、依然として困難です。
Direct Preference Optimization (DPO) は、よりシンプルで効率的な代替手段として登場しましたが、そのパフォーマンスは嗜好データの品質に大きく依存します。
これに対処するために、我々は報酬スコアとモデルの信頼性を組み合わせて微調整のためのデータ選択を改善する新しい方法である信頼報酬駆動型優先最適化 (CRPO) を提案します。
CRPO は、モデルが不確実であるかパフォーマンスが低い場合に、困難な文のペアを選択し、より効果的な学習に導きます。
CRPO は主に LLM 向けに設計されていますが、NLLB などのエンコーダ/デコーダ モデルにも一般化されており、その多用途性を示しています。
経験的な結果は、CRPO が翻訳精度とデータ効率の両方において RS-DPO、RSO、MBR スコアなどの既存の方法よりも優れていることを示しています。

要約(オリジナル)

Large language models (LLMs) have shown great potential in natural language processing tasks, but their application to machine translation (MT) remains challenging due to pretraining on English-centric data and the complexity of reinforcement learning from human feedback (RLHF). Direct Preference Optimization (DPO) has emerged as a simpler and more efficient alternative, but its performance depends heavily on the quality of preference data. To address this, we propose Confidence-Reward driven Preference Optimization (CRPO), a novel method that combines reward scores with model confidence to improve data selection for fine-tuning. CRPO selects challenging sentence pairs where the model is uncertain or underperforms, leading to more effective learning. While primarily designed for LLMs, CRPO also generalizes to encoder-decoder models like NLLB, demonstrating its versatility. Empirical results show that CRPO outperforms existing methods such as RS-DPO, RSO and MBR score in both translation accuracy and data efficiency.

arxiv情報

著者 Guofeng Cui,Pichao Wang,Yang Liu,Zemian Ke,Zhu Liu,Vimal Bhat
発行日 2025-01-23 18:59:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV パーマリンク