要約
好みのデータセットは、人間の好みを事前トレーニングされた言語モデルに組み込むために不可欠であり、人間のフィードバックからの強化学習の成功に重要な役割を果たします。
ただし、これらのデータセットは矛盾するアライメント目標を示していることが多く、ジェイルブレイク攻撃に対する脆弱性が増大し、他のデータセットに悪影響を与えることなく特定のアライメント目標を優先するように下流タスクを適応させる際の課題につながります。
この研究では、嗜好データセット内の競合の程度を定量化するために、新しい統計指標であるアライメント ディメンションの競合を導入します。
次に、\texttt{Hummer} とそのきめ細かいバリアントである \texttt{Hummer-F} を、競合を削減したアライメント目標を備えた革新的なペアワイズ選好データセットとして提示します。
\texttt{Hummer} は UltraFeedback に基づいて構築され、GPT-4 からの AI フィードバックによって強化されており、アライメント目標間の競合を減らすことを目的とした最初の優先データセットとしてマークされています。
さらに、ハイブリッド サンプリング アプローチを採用して、多様なアライメント目標のバランスを効果的に調整する報酬モデル、HummerRM および HummerRM-F を開発します。
このサンプリング方法により、HummerRM はドメイン固有のさらなる微調整と攻撃に対する脆弱性の軽減のための理想的なモデルとして位置づけられます。
要約(オリジナル)
Preference datasets are essential for incorporating human preferences into pre-trained language models, playing a key role in the success of Reinforcement Learning from Human Feedback. However, these datasets often demonstrate conflicting alignment objectives, leading to increased vulnerability to jailbreak attacks and challenges in adapting downstream tasks to prioritize specific alignment objectives without negatively impacting others. In this work, we introduce a novel statistical metric, Alignment Dimension Conflict, to quantify the degree of conflict within preference datasets. We then present \texttt{Hummer} and its fine-grained variant, \texttt{Hummer-F}, as innovative pairwise preference datasets with reduced-conflict alignment objectives. \texttt{Hummer} is built based on UltraFeedback and is enhanced by AI feedback from GPT-4, marking as the first preference dataset aimed at reducing the competition between alignment objectives. Furthermore, we develop reward models, HummerRM and HummerRM-F, which employ a hybrid sampling approach to balance diverse alignment objectives effectively. This sampling method positions HummerRM as an ideal model for domain-specific further fine-tuning and reducing vulnerabilities to attacks.
arxiv情報
著者 | Li Jiang,Yusen Wu,Junwu Xiong,Jingqing Ruan,Yichuan Ding,Qingpei Guo,Zujie Wen,Jun Zhou,Xiaotie Deng |
発行日 | 2024-08-06 14:12:26+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google