要約
大規模言語モデル(LLM)における最近の進歩は、多目的選好アライメントを通じて、異質な人間の期待や価値観に取り組むことを目的としている。(1)アライメントアルゴリズムは、新しいターゲットモデルごとに高コストで繰り返される。(2)アライメント目的が静的であるため、未知の目的へ拡張できない。(2)静的なアライメント目的であるため、未知の目的への拡張ができない。本研究では、メタ目的アライナー(Meta-Objective Aligner: MetaAligner)を提案する。MetaAlignerは、政策モデルからパラメータ更新を切り離すことによってプラグアンドプレイアライメントを可能にし、コンテキスト内学習によって未知の目的に対するゼロショットプリファレンスアライメントを容易にする、多目的プリファレンスアライメントのための最初の政策にとらわれない一般化可能な手法である。実験結果によれば、MetaAlignerは、10種類の最先端のポリシーモデルにおいて、多目的アライメントにおいて有意かつバランスの取れた改善を達成し、GPU学習時間を15.71倍まで削減することで、従来のアライメント手法を凌駕している。また、このモデルは未知の目的に対しても効果的にアライメントを行い、一般化可能な多目的プリファレンスアライメントへの第一歩を踏み出した。
要約(オリジナル)
Recent advancements in large language models (LLMs) aim to tackle heterogeneous human expectations and values via multi-objective preference alignment. However, existing methods are parameter-adherent to the policy model, leading to two key limitations: (1) the high-cost repetition of their alignment algorithms for each new target model; (2) they cannot expand to unseen objectives due to their static alignment objectives. In this work, we propose Meta-Objective Aligner (MetaAligner), a model that performs conditional weak-to-strong correction for weak responses to approach strong responses. MetaAligner is the first policy-agnostic and generalizable method for multi-objective preference alignment, which enables plug-and-play alignment by decoupling parameter updates from the policy models and facilitates zero-shot preference alignment for unseen objectives via in-context learning. Experimental results show that MetaAligner achieves significant and balanced improvements in multi-objective alignments on 10 state-of-the-art policy models, and outperforms previous alignment methods with down to 15.71x less GPU training hours. The model also effectively aligns unseen objectives, marking the first step towards generalizable multi-objective preference alignment.
arxiv情報
著者 | Kailai Yang,Zhiwei Liu,Qianqian Xie,Jimin Huang,Tianlin Zhang,Sophia Ananiadou |
発行日 | 2024-05-06 14:17:41+00:00 |
arxivサイト | arxiv_id(pdf) |