Unlocking Decoding-time Controllability: Gradient-Free Multi-Objective Alignment with Contrastive Prompts

要約

多目的調整のタスクは、さまざまなユーザーのパーソナライズされた要件を満たすために、大規模な言語モデルのさまざまな調整目標 (有用性、無害性、正直さなど) のバランスを取り、制御することを目的としています。
ただし、以前の方法では、さまざまなユーザーの好みに対処するために複数のモデルをトレーニングする傾向があり、トレーニングされたモデルの数は、調整目標の数やさまざまな好みの数に応じて直線的に増加します。
一方、既存の方法は一般に拡張性に乏しく、検討される新しい調整目標ごとに大幅な再トレーニングが必要です。
これまでのアプローチの限界を考慮して、我々は、デコード時に対比する目的ごとに専門家プロンプトと敵対的プロンプトを構築し、コントラストを組み合わせることで目的のバランスを取る MCA (Multi-objective Contrastive Alignemnt) を提案します。
私たちのアプローチは、異なるアライメント目標間で適切に分散されたパレート フロントを取得する点で、以前の方法よりも優れていることが検証されています。

要約(オリジナル)

The task of multi-objective alignment aims at balancing and controlling the different alignment objectives (e.g., helpfulness, harmlessness and honesty) of large language models to meet the personalized requirements of different users. However, previous methods tend to train multiple models to deal with various user preferences, with the number of trained models growing linearly with the number of alignment objectives and the number of different preferences. Meanwhile, existing methods are generally poor in extensibility and require significant re-training for each new alignment objective considered. Considering the limitation of previous approaches, we propose MCA (Multi-objective Contrastive Alignemnt), which constructs an expert prompt and an adversarial prompt for each objective to contrast at the decoding time and balances the objectives through combining the contrast. Our approach is verified to be superior to previous methods in obtaining a well-distributed Pareto front among different alignment objectives.

arxiv情報

著者 Tingchen Fu,Yupeng Hou,Julian McAuley,Rui Yan
発行日 2024-08-09 14:36:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク