要約
言語モデルを人間の嗜好に適合させることは、実世界のタスクに適用するために不可欠である。この問題は、人間の嗜好を反映した期待報酬を、初期方針からの乖離を最小にしながら最大化するために、モデルの方針を最適化することとして定式化される。強化学習(RL)は簡単な解決策と考えられているが、ポリシーの更新における高い分散に悩まされており、効率的なポリシーの改善を妨げている。最近、直接選好最適化(DPO)が提案された。DPOは実装は簡単であるが、実際に達成される保証のない最適政策に基づいて導出されるため、意図した解への収束性が損なわれる。 本論文では、アライメント目的の効率的な厳密最適化(EXO)を提案する。EXOは、RLアルゴリズムの複雑さを回避して効率的な最適化を可能にする一方で、ポリシーのアービタリなパラメトリゼーションに対して漸近的にRLアルゴリズムと同じ方向に最適化することが保証されることを証明する。本手法とDPOを理論的、実証的に比較し、さらに現実的な人間の嗜好データを用いて、既存のアプローチに対する本手法の優位性を実証する。
要約(オリジナル)
The alignment of language models with human preferences is vital for their application in real-world tasks. The problem is formulated as optimizing the model’s policy to maximize the expected reward that reflects human preferences with minimal deviation from the initial policy. While considered as a straightforward solution, reinforcement learning (RL) suffers from high variance in policy updates, which impedes efficient policy improvement. Recently, direct preference optimization (DPO) was proposed to directly optimize the policy from preference data. Though simple to implement, DPO is derived based on the optimal policy that is not assured to be achieved in practice, which undermines its convergence to the intended solution. In this paper, we propose efficient exact optimization (EXO) of the alignment objective. We prove that EXO is guaranteed to optimize in the same direction as the RL algorithms asymptotically for arbitary parametrization of the policy, while enables efficient optimization by circumventing the complexities associated with RL algorithms. We compare our method to DPO with both theoretical and empirical analyses, and further demonstrate the advantages of our method over existing approaches on realistic human preference data.
arxiv情報
著者 | Haozhe Ji,Cheng Lu,Yilin Niu,Pei Ke,Hongning Wang,Jun Zhu,Jie Tang,Minlie Huang |
発行日 | 2024-02-02 15:50:10+00:00 |
arxivサイト | arxiv_id(pdf) |