Geometric-Averaged Preference Optimization for Soft Preference Labels

要約

LLM を人間の好みに合わせるためのアルゴリズムの多くは、人間の好みが二値的で決定的であることを前提としています。
ただし、応答は個人によって異なる可能性があるため、応答間の詳細な関係を反映するように分布する必要があると考えるのが合理的です。
この研究では、分布ソフト優先ラベルを導入し、損失関数の LLM 出力尤度の加重幾何平均を使用して直接優先最適化 (DPO) を改善します。
その際、学習損失のスケールはソフト ラベルに基づいて調整され、同様に優先される応答による損失はゼロに近くなります。
この単純な変更は、あらゆる DPO ファミリに簡単に適用でき、モデルが以前の作業で被っていた過剰な最適化や目標の不一致から逃れるのに役立ちます。
私たちの実験では、LLM からの AI フィードバックを使用してソフトプリファレンスラベルをシミュレートし、幾何平均によってアライメント研究の標準ベンチマークのパフォーマンスが一貫して向上することを実証しました。
特に、バイナリラベルよりも好ましい応答が観察され、中程度に自信のあるラベルが多数を占めるデータでは大幅な改善が見られます。

要約(オリジナル)

Many algorithms for aligning LLMs with human preferences assume that human preferences are binary and deterministic. However, it is reasonable to think that they can vary with different individuals, and thus should be distributional to reflect the fine-grained relationship between the responses. In this work, we introduce the distributional soft preference labels and improve Direct Preference Optimization (DPO) with a weighted geometric average of the LLM output likelihood in the loss function. In doing so, the scale of learning loss is adjusted based on the soft labels, and the loss with equally preferred responses would be close to zero. This simple modification can be easily applied to any DPO family and helps the models escape from the over-optimization and objective mismatch prior works suffer from. In our experiments, we simulate the soft preference labels with AI feedback from LLMs and demonstrate that geometric averaging consistently improves performance on standard benchmarks for alignment research. In particular, we observe more preferable responses than binary labels and significant improvements with data where modestly-confident labels are in the majority.

arxiv情報

著者 Hiroki Furuta,Kuang-Huei Lee,Shixiang Shane Gu,Yutaka Matsuo,Aleksandra Faust,Heiga Zen,Izzeddin Gur
発行日 2024-09-10 17:54:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク