RAIN: Your Language Models Can Align Themselves without Finetuning

要約

大規模言語モデル (LLM) は、人間の好みとの矛盾を示すことがよくあります。
これまでの研究では、人間の嗜好データを収集し、強化学習または命令チューニング、いわゆる微調整ステップを使用して事前トレーニングされたモデルを調整していました。
対照的に、追加データなしで凍結された LLM を整列させる方が魅力的です。
この作品は後者の設定の可能性を探求しています。
私たちは、自己評価と巻き戻しメカニズムを統合することにより、調整されていない LLM が自己ブースティングを介して人間の好みと一致する応答を直接生成できることを発見しました。
新しい推論手法である Rewindable Auto-regressive INference (RAIN) を導入します。これにより、事前トレーニングされた LLM が自身の世代を評価し、その評価結果を AI の安全性を確保するための後方巻き戻しと前方生成のガイドに使用できるようになります。
特に、RAIN はモデルの調整に追加のデータを必要とせずに動作し、トレーニング、勾配計算、パラメーターの更新を一切行いません。
自己評価フェーズ中に、モデルは固定テンプレートのプロンプトを通じて人間のどの好みに合わせるかについてのガイダンスを受け取り、最初のプロンプトを変更する必要がなくなります。
GPT-4 と人間によって評価された実験結果は、RAIN の有効性を示しています。HH データセットでは、RAIN は有用率を維持しながら、バニラ推論に対する LLaMA 30B の無害率を 82% から 97% に改善しました。
ビクーニャ 33B に対する主要な敵対攻撃 llm 攻撃の下で、RAIN は攻撃成功率を 94% から 19% に低下させることで新しい防御ベースラインを確立しました。

要約(オリジナル)

Large language models (LLMs) often demonstrate inconsistencies with human preferences. Previous research gathered human preference data and then aligned the pre-trained models using reinforcement learning or instruction tuning, the so-called finetuning step. In contrast, aligning frozen LLMs without any extra data is more appealing. This work explores the potential of the latter setting. We discover that by integrating self-evaluation and rewind mechanisms, unaligned LLMs can directly produce responses consistent with human preferences via self-boosting. We introduce a novel inference method, Rewindable Auto-regressive INference (RAIN), that allows pre-trained LLMs to evaluate their own generation and use the evaluation results to guide backward rewind and forward generation for AI safety. Notably, RAIN operates without the need of extra data for model alignment and abstains from any training, gradient computation, or parameter updates; during the self-evaluation phase, the model receives guidance on which human preference to align with through a fixed-template prompt, eliminating the need to modify the initial prompt. Experimental results evaluated by GPT-4 and humans demonstrate the effectiveness of RAIN: on the HH dataset, RAIN improves the harmlessness rate of LLaMA 30B over vanilla inference from 82% to 97%, while maintaining the helpfulness rate. Under the leading adversarial attack llm-attacks on Vicuna 33B, RAIN establishes a new defense baseline by reducing the attack success rate from 94% to 19%.

arxiv情報

著者 Yuhui Li,Fangyun Wei,Jinjing Zhao,Chao Zhang,Hongyang Zhang
発行日 2023-09-13 17:59:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク