要約
人工知能における整合性は、モデルの応答と人間の好みおよび価値観の間の一貫性を追求します。
実際には、人間の選好の多面的な性質により、「調整税」として知られるものが誤って導入されます。これは、1 つの目的 (無害性など) 内での調整を強化すると、他の目的 (有用性など) でのパフォーマンスが低下する可能性があるという妥協案です。
しかし、既存の調整技術はほとんど一方向であり、最適ではないトレードオフが発生し、さまざまな目的にわたって柔軟性が低くなります。
この課題を乗り越えるために、私たちは明らかな好みを持ったグラウンディング LLM の卓越性を主張します。
制御可能な優先度の最適化 (CPO) を導入します。これは、さまざまな目的の優先度スコアを明示的に指定し、それによって要件を満たす応答を生成するようにモデルを導きます。
私たちの実験分析により、調整されたモデルは、「3H」(有用性、誠実さ、無害性) の要望の中のさまざまな好みに一致する応答を提供できることが明らかになりました。
さらに、多様なデータと調整目標を導入することで、単一の目的との調整においてベースライン手法を上回り、調整税の影響を軽減し、複数の目的の調整におけるパレート改善を達成します。
要約(オリジナル)
Alignment in artificial intelligence pursues the consistency between model responses and human preferences as well as values. In practice, the multifaceted nature of human preferences inadvertently introduces what is known as the ‘alignment tax’ -a compromise where enhancements in alignment within one objective (e.g.,harmlessness) can diminish performance in others (e.g.,helpfulness). However, existing alignment techniques are mostly unidirectional, leading to suboptimal trade-offs and poor flexibility over various objectives. To navigate this challenge, we argue the prominence of grounding LLMs with evident preferences. We introduce controllable preference optimization (CPO), which explicitly specifies preference scores for different objectives, thereby guiding the model to generate responses that meet the requirements. Our experimental analysis reveals that the aligned models can provide responses that match various preferences among the ‘3H’ (helpfulness, honesty, harmlessness) desiderata. Furthermore, by introducing diverse data and alignment goals, we surpass baseline methods in aligning with single objectives, hence mitigating the impact of the alignment tax and achieving Pareto improvements in multi-objective alignment.
arxiv情報
著者 | Yiju Guo,Ganqu Cui,Lifan Yuan,Ning Ding,Zexu Sun,Bowen Sun,Huimin Chen,Ruobing Xie,Jie Zhou,Yankai Lin,Zhiyuan Liu,Maosong Sun |
発行日 | 2024-10-02 16:54:33+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google