Adversarial Preference Optimization: Enhancing Your Alignment via RM-LLM Game

要約

大規模言語モデル(LLM)の対話品質を向上させるためには、人間の嗜好アライメントが不可欠です。既存のアライメント手法は、LLM最適化の方向性を導くために、手動でアノテーションされた嗜好データに依存しています。しかし、アライメントのためにLLMを継続的に更新することは、モデルが生成したサンプルと人間がアノテーションした応答との間に分布ギャップを生じさせ、学習効果を妨げる。この問題を軽減するために、従来の手法では、シフトした分布に適応するために、新たに生成されたサンプルに追加の嗜好アノテーションが必要であり、これは大量のアノテーションリソースを消費する。より効率的な人間の嗜好最適化を目指し、我々は敵対的嗜好最適化(APO)フレームワークを提案する。敵対的な学習により、報酬モデルはLLMのシフトした世代分布に適応することができる。包括的な実験により、提案する敵対的訓練フレームワークは、LLMの有用性と無害性の観点から、既存のアライメントベースラインをさらに強化することがわかった。コードはhttps://github.com/Linear95/APO。

要約(オリジナル)

Human preference alignment is essential to improve the interaction quality of large language models (LLMs). Existing alignment methods depend on manually annotated preference data to guide the LLM optimization directions. However, continuously updating LLMs for alignment raises a distribution gap between model-generated samples and human-annotated responses, hindering training effectiveness. To mitigate this issue, previous methods require additional preference annotation on newly generated samples to adapt to the shifted distribution, which consumes a large amount of annotation resources. Targeting more efficient human preference optimization, we propose an Adversarial Preference Optimization (APO) framework, in which the LLM and the reward model update alternatively via a min-max game. Through adversarial training, the reward model can adapt to the shifted generation distribution of the LLM without any additional annotation. With comprehensive experiments, we find the proposed adversarial training framework further enhances existing alignment baselines in terms of LLM helpfulness and harmlessness. The code is at https://github.com/Linear95/APO.

arxiv情報

著者 Pengyu Cheng,Yifan Yang,Jian Li,Yong Dai,Tianhao Hu,Peixin Cao,Nan Du,Xiaolong Li
発行日 2024-06-03 11:34:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク