PopAlign: Diversifying Contrasting Patterns for a More Comprehensive Alignment

要約

大規模言語モデル (LLM) の調整には、人間の好みに応じて応答を調整するために、好みと対照的な出力ペアでモデルをトレーニングすることが含まれます。
このような対照的なペアを取得するために、RLHF や RLAIF などの従来の方法は、モデルのバリアントやデコード温度を変えるなど、限られた対照的なパターンに依存しています。
この特異点は 2 つの問題を引き起こします。(1) 調整は包括的ではありません。
そのため、(2) モデルは脱獄攻撃を受けやすくなります。
これらの問題に対処するために、嗜好データを強化するためにより包括的で多様な対照パターンを構築する方法 (RQ1) を調査し、モデルの整合性に対する対照パターンの多様化の影響を検証します (RQ2)。
RQ1 では、プロンプト、モデル、パイプライン レベルにわたる多様な対照的なパターンを統合するフレームワークである PopAlign を提案し、追加のフィードバック ラベリング手順を必要としない 6 つの対照的な戦略を導入します。
RQ2 に関しては、PopAlign が既存の手法を大幅に上回っており、より包括的な位置合わせにつながることを実証する徹底的な実験が行われています。

要約(オリジナル)

Alignment of large language models (LLMs) involves training models on preference-contrastive output pairs to adjust their responses according to human preferences. To obtain such contrastive pairs, traditional methods like RLHF and RLAIF rely on limited contrasting patterns, such as varying model variants or decoding temperatures. This singularity leads to two issues: (1) alignment is not comprehensive; and thereby (2) models are susceptible to jailbreaking attacks. To address these issues, we investigate how to construct more comprehensive and diversified contrasting patterns to enhance preference data (RQ1) and verify the impact of the diversification of contrasting patterns on model alignment (RQ2). For RQ1, we propose PopAlign, a framework that integrates diversified contrasting patterns across the prompt, model, and pipeline levels, introducing six contrasting strategies that do not require additional feedback labeling procedures. Regarding RQ2, we conduct thorough experiments demonstrating that PopAlign significantly outperforms existing methods, leading to more comprehensive alignment.

arxiv情報

著者 Zekun Moore Wang,Shawn Wang,Kang Zhu,Jiaheng Liu,Ke Xu,Jie Fu,Wangchunshu Zhou,Wenhao Huang
発行日 2024-10-17 17:22:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク