Linear Alignment: A Closed-form Solution for Aligning Human Preferences without Tuning and Feedback

要約

言語モデル (LLM) に基づく AI アシスタントの成功は、ユーザーの意図を理解し、それに合わせるためのヒューマン フィードバックからの強化学習 (RLHF) にかかっています。
ただし、PPO などの従来の位置合わせアルゴリズムは、複雑なアノテーションとトレーニング要件によって妨げられています。
この依存は、RLHF の適用性を制限し、人間の多様な好みに合わせた専門的なアシスタントの開発を妨げます。
この研究では、単一の推論ステップで言語モデルを人間の好みに合わせて調整する新しいアルゴリズムである \textit{Linear Alignment} を導入し、データ アノテーションやモデル トレーニングへの依存を排除​​します。
線形調整には、発散制約の下でポリシーを最適化するための新しいパラメータ化が組み込まれており、これにより、閉じた形式で最適なポリシーを抽出でき、調整された応答の直接推定が容易になります。
一般的な嗜好データセットとパーソナライズされた嗜好データセットの両方に関する広範な実験により、線形アライメントがさまざまなシナリオにわたって LLM アライメントのパフォーマンスと効率を大幅に向上させることが実証されました。
コードとデータセットは \url{https://github.com/Wizardcoast/Linear_Alignment.git} で公開されています。

要約(オリジナル)

The success of AI assistants based on Language Models (LLMs) hinges on Reinforcement Learning from Human Feedback (RLHF) to comprehend and align with user intentions. However, traditional alignment algorithms, such as PPO, are hampered by complex annotation and training requirements. This reliance limits the applicability of RLHF and hinders the development of professional assistants tailored to diverse human preferences. In this work, we introduce \textit{Linear Alignment}, a novel algorithm that aligns language models with human preferences in one single inference step, eliminating the reliance on data annotation and model training. Linear alignment incorporates a new parameterization for policy optimization under divergence constraints, which enables the extraction of optimal policy in a closed-form manner and facilitates the direct estimation of the aligned response. Extensive experiments on both general and personalized preference datasets demonstrate that linear alignment significantly enhances the performance and efficiency of LLM alignment across diverse scenarios. Our code and dataset is published on \url{https://github.com/Wizardcoast/Linear_Alignment.git}.

arxiv情報

著者 Songyang Gao,Qiming Ge,Wei Shen,Shihan Dou,Junjie Ye,Xiao Wang,Rui Zheng,Yicheng Zou,Zhi Chen,Hang Yan,Qi Zhang,Dahua Lin
発行日 2024-05-06 09:30:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク