Implicit Cross-Lingual Rewarding for Efficient Multilingual Preference Alignment

要約

直接選好最適化(DPO)は、大規模な言語モデル(LLM)を人間の好みに合わせるための顕著な方法となっています。
DPOは英語のLLMSの調整において大きな進歩を可能にしましたが、多言語の好みのアラインメントはデータ不足によって妨げられます。
これに対処するために、$ \ textit {cuptrues} $は、暗黙の報酬と$ \ textit {transfers} $を反復的なトレーニングを通じて他の言語に獲得した英語モデルから学習された選好を学んだという新しいアプローチを提案します。
具体的には、英語のDPOに並べられたモデルとその対応する参照モデルのロジットから暗黙の報酬モデルを導き出します。
この報酬モデルは、英語の指示を使用して多言語の応答を評価して、言語間の指導に従うペアで優先関係に注釈を付けるために活用されます。
注釈付きデータは、その後、多言語のDPO微調整に使用され、英語から他の言語への好みの知識転送を促進します。
2回の反復でLLAMA3を微調整すると、X-Alpacaevalリーダーボードのすべてのトレーニング言語で、勝利率が12.72%の平均改善と5.97%の長さのコントロール勝利率が増加しました。
我々の調査結果は、既存の英語に合わせたモデルを活用すると、効率的かつ効果的な多言語選好アラインメントが可能になり、広範な多言語選好データの必要性が大幅に減少することを示しています。
このコードは、https://github.com/znlp/implicit-cross-lingual-rewardingで入手できます

要約(オリジナル)

Direct Preference Optimization (DPO) has become a prominent method for aligning Large Language Models (LLMs) with human preferences. While DPO has enabled significant progress in aligning English LLMs, multilingual preference alignment is hampered by data scarcity. To address this, we propose a novel approach that $\textit{captures}$ learned preferences from well-aligned English models by implicit rewards and $\textit{transfers}$ them to other languages through iterative training. Specifically, we derive an implicit reward model from the logits of an English DPO-aligned model and its corresponding reference model. This reward model is then leveraged to annotate preference relations in cross-lingual instruction-following pairs, using English instructions to evaluate multilingual responses. The annotated data is subsequently used for multilingual DPO fine-tuning, facilitating preference knowledge transfer from English to other languages. Fine-tuning Llama3 for two iterations resulted in a 12.72% average improvement in Win Rate and a 5.97% increase in Length Control Win Rate across all training languages on the X-AlpacaEval leaderboard. Our findings demonstrate that leveraging existing English-aligned models can enable efficient and effective multilingual preference alignment, significantly reducing the need for extensive multilingual preference data. The code is available at https://github.com/ZNLP/Implicit-Cross-Lingual-Rewarding

arxiv情報

著者 Wen Yang,Junhong Wu,Chen Wang,Chengqing Zong,Jiajun Zhang
発行日 2025-03-06 17:33:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク