Adversarial Contrastive Decoding: Boosting Safety Alignment of Large Language Models via Opposite Prompt Optimization

要約

大規模言語モデル (LLM) が広く適用されるようになったことで、その安全性を確保し、有害な反応を防ぐことが重要な課題となっています。
命令の微調整とヒューマン フィードバックからの強化学習 (RLHF) に基づく現在の安全な調整方法は、LLM からの有害な応答を効果的に軽減できますが、多くの場合、モデルのトレーニング中に高品質のデータセットと大量の計算オーバーヘッドが必要になります。
言語モデルを調整するもう 1 つの方法は、激しいトレーニングを行わずにモデル出力内のトークンのロジットを変更することです。
最近の研究では、対照的なデコードにより、トークンが混乱する可能性が減り、言語モデルのパフォーマンスが向上することが示されています。
ただし、これらの方法では、対照的なモデルまたは命令テンプレートを手動で選択する必要があります。
この目的を達成するために、プロンプトベースのコントラスト デコーディングのための 2 つの反対のシステム プロンプトを生成する最適化ベースのフレームワークである Adversarial Contrastive Decoding (ACD) を提案します。
ACD は、ターゲット モデルをトレーニングせずに、かなり小さなアンカー データセット (モデルごとに 3 分未満) に軽量のプロンプト チューニングを適用するだけで済みます。
広範なモデルとベンチマークで行われた実験により、提案された方法は、元の生成能力を犠牲にすることなく、以前のモデルのトレーニング不要の復号化方法よりもはるかに優れた安全性能を達成することが実証されました。

要約(オリジナル)

With the widespread application of Large Language Models (LLMs), it has become a significant concern to ensure their safety and prevent harmful responses. While current safe-alignment methods based on instruction fine-tuning and Reinforcement Learning from Human Feedback (RLHF) can effectively reduce harmful responses from LLMs, they often require high-quality datasets and heavy computational overhead during model training. Another way to align language models is to modify the logit of tokens in model outputs without heavy training. Recent studies have shown that contrastive decoding can enhance the performance of language models by reducing the likelihood of confused tokens. However, these methods require the manual selection of contrastive models or instruction templates. To this end, we propose Adversarial Contrastive Decoding (ACD), an optimization-based framework to generate two opposite system prompts for prompt-based contrastive decoding. ACD only needs to apply a lightweight prompt tuning on a rather small anchor dataset (< 3 min for each model) without training the target model. Experiments conducted on extensive models and benchmarks demonstrate that the proposed method achieves much better safety performance than previous model training-free decoding methods without sacrificing its original generation ability.

arxiv情報

著者 Zhengyue Zhao,Xiaoyun Zhang,Kaidi Xu,Xing Hu,Rui Zhang,Zidong Du,Qi Guo,Yunji Chen
発行日 2024-06-24 15:51:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク