Direct Density Ratio Optimization: A Statistically Consistent Approach to Aligning Large Language Models

要約

大規模な言語モデル(LLM)を人間の好みに合わせて整合することは、安全な展開に不可欠ですが、既存の方法では、Bradley-Terryモデルなどの特定の優先モデルを想定しています。
この仮定は、統計的な矛盾につながります。この場合、より多くのデータが真の人間の好みへの収束を保証しません。
このクリティカルギャップに対処するために、新しいアライメントメソッド直接密度比最適化(DDRO)を導入します。
DDROは、明示的な人間の好みモデリングの必要性を回避する、優先された出力分布と未定の出力分布の密度比を直接推定します。
我々は、DDROが統計的に一貫していることを理論的に証明し、基礎となる嗜好構造に関係なく、データサイズが増加するにつれて、真の優先分布への収束を保証します。
実験は、DDROが多くの主要なベンチマークの既存の方法と比較して優れた性能を達成することを示しています。
DDROは、真にデータ駆動型のアライメントの可能性を解き放ち、より信頼性が高く人間に整列したLLMへの道を開きます。

要約(オリジナル)

Aligning large language models (LLMs) with human preferences is crucial for safe deployment, yet existing methods assume specific preference models like Bradley-Terry model. This assumption leads to statistical inconsistency, where more data doesn’t guarantee convergence to true human preferences. To address this critical gap, we introduce a novel alignment method Direct Density Ratio Optimization (DDRO). DDRO directly estimates the density ratio between preferred and unpreferred output distributions, circumventing the need for explicit human preference modeling. We theoretically prove that DDRO is statistically consistent, ensuring convergence to the true preferred distribution as the data size grows, regardless of the underlying preference structure. Experiments demonstrate that DDRO achieves superior performance compared to existing methods on many major benchmarks. DDRO unlocks the potential for truly data-driven alignment, paving the way for more reliable and human-aligned LLMs.

arxiv情報

著者 Rei Higuchi,Taiji Suzuki
発行日 2025-05-12 13:36:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG, stat.ML パーマリンク