要約
複数の人間の期待と価値を持つ大規模な言語モデルを調整することは、さまざまなユーザーニーズに適切にサービスを提供するために重要です。
この目的のために、オフラインの多目的アライメントアルゴリズムなどのオフラインの多目的アライメントアルゴリズムは、強力なパフォーマンスと効率を示しています。
ただし、不均衡な報酬スコアを使用した不適切な好みの表現とトレーニングにより、そのようなアルゴリズムのパフォーマンスが制限されます。
この作業では、人間の好みを客観的な空間の好みの方向として表現し、パレート戦線近くのデータを「高品質」のデータとして表現することにより、上記の問題に対処するパレートHQDを導入します。
各好みについて、ParetoHQDは2段階の監視された微調整プロセスに従います。各ステージは、好みの方向に最適な個々のパレート高品質のトレーニングセットを使用します。
実験結果は、2つの多目的アライメントタスクで5つのベースラインを超えるパレートHQDの優位性を実証しています。
要約(オリジナル)
Aligning large language models with multiple human expectations and values is crucial for ensuring that they adequately serve a variety of user needs. To this end, offline multiobjective alignment algorithms such as the Rewards-in-Context algorithm have shown strong performance and efficiency. However, inappropriate preference representations and training with imbalanced reward scores limit the performance of such algorithms. In this work, we introduce ParetoHqD that addresses the above issues by representing human preferences as preference directions in the objective space and regarding data near the Pareto front as ”high-quality” data. For each preference, ParetoHqD follows a two-stage supervised fine-tuning process, where each stage uses an individual Pareto high-quality training set that best matches its preference direction. The experimental results have demonstrated the superiority of ParetoHqD over five baselines on two multiobjective alignment tasks.
arxiv情報
著者 | Haoran Gu,Handing Wang,Yi Mei,Mengjie Zhang,Yaochu Jin |
発行日 | 2025-04-23 11:35:57+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google