要約
LLM を人間の好みに合わせるためのアルゴリズムの多くは、人間の好みが二値的で決定的であることを前提としています。
ただし、人間の好みは個人によって異なる可能性があるため、分布的に表す必要があります。
この研究では、分布ソフト優先ラベルを導入し、損失関数の LLM 出力尤度の加重幾何平均を使用して直接優先最適化 (DPO) を改善します。
このアプローチは、応答が同等の優先度に近づくと損失がゼロに近づくように、ソフト ラベルに基づいて学習損失のスケールを調整します。
この単純な変更は、あらゆる DPO ベースのメソッドに簡単に適用でき、従来の作業で問題となっていた過剰な最適化や目的の不一致を軽減できます。
私たちの実験では、LLM からの AI フィードバックを使用してソフトプリファレンスラベルをシミュレートし、幾何平均によってアライメント研究の標準ベンチマークのパフォーマンスが一貫して向上することを実証しました。
特に、バイナリラベルよりも好ましい応答と、適度に自信のあるラベルが多数を占める場合の大幅な改善が観察されます。
要約(オリジナル)
Many algorithms for aligning LLMs with human preferences assume that human preferences are binary and deterministic. However, human preferences can vary across individuals, and therefore should be represented distributionally. In this work, we introduce the distributional soft preference labels and improve Direct Preference Optimization (DPO) with a weighted geometric average of the LLM output likelihood in the loss function. This approach adjusts the scale of learning loss based on the soft labels such that the loss would approach zero when the responses are closer to equally preferred. This simple modification can be easily applied to any DPO-based methods and mitigate over-optimization and objective mismatch, which prior works suffer from. Our experiments simulate the soft preference labels with AI feedback from LLMs and demonstrate that geometric averaging consistently improves performance on standard benchmarks for alignment research. In particular, we observe more preferable responses than binary labels and significant improvements where modestly-confident labels are in the majority.
arxiv情報
著者 | Hiroki Furuta,Kuang-Huei Lee,Shixiang Shane Gu,Yutaka Matsuo,Aleksandra Faust,Heiga Zen,Izzeddin Gur |
発行日 | 2024-12-30 11:05:20+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google