Panacea: Pareto Alignment via Preference Adaptation for LLMs

要約

大規模言語モデルの調整のための現在の方法では、通常、スカラーの人間の好みのラベルが使用されます。
ただし、この慣例は人間の好みの多次元的かつ異質な性質を過度に単純化する傾向があり、表現力の低下や不整合につながる可能性があります。
この論文では、調整を多次元の優先最適化問題として再構成する革新的なアプローチである Panacea について説明します。
Panacea は、さらなる調整を必要とせずに、さまざまな設定にオンラインおよびパレート最適に適応できる単一のモデルをトレーニングします。
ここでの大きな課題は、モデルが圧倒的に多数のパラメーターによって支配されているにもかかわらず、低次元の優先ベクトルを使用してモデルの動作をガイドすることです。
これに対処するために、Panacea は特異値分解 (SVD) ベースの低ランク適応を使用するように設計されており、これにより、嗜好ベクトルを特異値としてオンラインで単純に注入できます。
理論的には、Panacea が穏やかな条件下で一般的な損失集計手法を使用してパレート フロント全体を回復することを証明します。
さらに、私たちの実験は、さまざまな最適化手法を通じて、指数関数的に広大な範囲の人間の好みを表すように単一の LLM を調整する実現可能性を初めて実証しました。
私たちの研究は、制御可能かつパレート最適化された方法で、人間の多様で複雑な好みに合わせてモデルを効果的かつ効率的に調整する上での一歩前進を示しています。

要約(オリジナル)

Current methods for large language model alignment typically use scalar human preference labels. However, this convention tends to oversimplify the multi-dimensional and heterogeneous nature of human preferences, leading to reduced expressivity and even misalignment. This paper presents Panacea, an innovative approach that reframes alignment as a multi-dimensional preference optimization problem. Panacea trains a single model capable of adapting online and Pareto-optimally to diverse sets of preferences without the need for further tuning. A major challenge here is using a low-dimensional preference vector to guide the model’s behavior, despite it being governed by an overwhelmingly large number of parameters. To address this, Panacea is designed to use singular value decomposition (SVD)-based low-rank adaptation, which allows the preference vector to be simply injected online as singular values. Theoretically, we prove that Panacea recovers the entire Pareto front with common loss aggregation methods under mild conditions. Moreover, our experiments demonstrate, for the first time, the feasibility of aligning a single LLM to represent an exponentially vast spectrum of human preferences through various optimization methods. Our work marks a step forward in effectively and efficiently aligning models to diverse and intricate human preferences in a controllable and Pareto-optimal manner.

arxiv情報

著者 Yifan Zhong,Chengdong Ma,Xiaoyuan Zhang,Ziran Yang,Haojun Chen,Qingfu Zhang,Siyuan Qi,Yaodong Yang
発行日 2024-05-23 13:49:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク