要約
大規模な言語モデル(LLMS)は、人間の価値に向かって出力を操作するための優先アライメント方法にますます依存していますが、これらの方法はしばしば高品質の人間に感染したデータの希少性によって制約されます。
これに取り組むために、最近のアプローチは、スケーラブルな代替品としてLLMSによって生成された合成データに変わりました。
ただし、合成データは分布シフトを導入し、望ましい出力に不可欠な微妙な人間の好みを損なう可能性があります。
この論文では、このようなシフトの存在下で優先順位のアライメントを改善する新しい配布認識最適化フレームワークを提案します。
私たちのアプローチは、最初に、学習された分類器を活用するターゲットとトレーニング分布との間の尤度比を推定し、次に、ターゲットのヒト優先分布を反映するデータ領域にわたる最悪の損失を最小限に抑えます。
最適化中にターゲット分布を明示的に優先することにより、この方法は分布の変動の悪影響を軽減し、人間の価値を忠実に反映する応答の生成を強化します。
要約(オリジナル)
Large language models (LLMs) increasingly rely on preference alignment methods to steer outputs toward human values, yet these methods are often constrained by the scarcity of high-quality human-annotated data. To tackle this, recent approaches have turned to synthetic data generated by LLMs as a scalable alternative. However, synthetic data can introduce distribution shifts, compromising the nuanced human preferences that are essential for desirable outputs. In this paper, we propose a novel distribution-aware optimization framework that improves preference alignment in the presence of such shifts. Our approach first estimates the likelihood ratios between the target and training distributions leveraging a learned classifier, then it minimizes the worst-case loss over data regions that reflect the target human-preferred distribution. By explicitly prioritizing the target distribution during optimization, our method mitigates the adverse effects of distributional variation and enhances the generation of responses that faithfully reflect human values.
arxiv情報
著者 | Mingye Zhu,Yi Liu,Junbo Guo,Quan Wang,Yongdong Zhang,Zhendong Mao |
発行日 | 2025-04-08 09:14:38+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google