Towards Efficient and Exact Optimization of Language Model Alignment

要約

言語モデルを人間の好みに合わせることは、現実世界のタスクに言語モデルを適用するために不可欠です。
この問題は、初期ポリシーからの逸脱を最小限に抑えながら、人間の好みを反映して期待される報酬を最大化するモデルのポリシーを最適化するものとして定式化されます。
強化学習 (RL) は単純な解決策と考えられていますが、ポリシー更新のばらつきが大きく、効率的なポリシー改善が妨げられます。
最近、嗜好データからポリシーを直接最適化する直接嗜好最適化 (DPO) が提案されました。
DPO は実装が簡単ですが、実際に達成されることが保証されていない最適なポリシーに基づいて導出されるため、意図したソリューションへの収束が損なわれます。
この論文では、アライメント対物レンズの効率的で正確な最適化 (EXO) を提案します。
EXO は、ポリシーの任意のパラメータ化に対して漸近的に RL アルゴリズムと同じ方向に最適化することが保証されている一方で、RL アルゴリズムに関連する複雑さを回避することで効率的な最適化が可能であることを証明します。
理論的分析と実証的分析の両方を用いて私たちの方法を DPO と比較し、現実的な人間の嗜好データに関する既存のアプローチに対する私たちの方法の利点をさらに実証します。
コードは https://github.com/haozheji/exact-optimization で入手できます。

要約(オリジナル)

The alignment of language models with human preferences is vital for their application in real-world tasks. The problem is formulated as optimizing the model’s policy to maximize the expected reward that reflects human preferences with minimal deviation from the initial policy. While considered as a straightforward solution, reinforcement learning (RL) suffers from high variance in policy updates, which impedes efficient policy improvement. Recently, direct preference optimization (DPO) was proposed to directly optimize the policy from preference data. Though simple to implement, DPO is derived based on the optimal policy that is not assured to be achieved in practice, which undermines its convergence to the intended solution. In this paper, we propose efficient exact optimization (EXO) of the alignment objective. We prove that EXO is guaranteed to optimize in the same direction as the RL algorithms asymptotically for arbitary parametrization of the policy, while enables efficient optimization by circumventing the complexities associated with RL algorithms. We compare our method to DPO with both theoretical and empirical analyses, and further demonstrate the advantages of our method over existing approaches on realistic human preference data. Code is available at https://github.com/haozheji/exact-optimization.

arxiv情報

著者 Haozhe Ji,Cheng Lu,Yilin Niu,Pei Ke,Hongning Wang,Jun Zhu,Jie Tang,Minlie Huang
発行日 2024-02-23 16:19:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク