Prompt-Driven LLM Safeguarding via Directed Representation Optimization

要約

モデル入力の前に安全性プロンプトを追加することは、大規模言語モデル (LLM) が有害な意図を含むクエリに準拠しないように保護するための一般的な方法です。
ただし、安全プロンプトの動作メカニズムはまだ完全に理解されていないため、LLM の安全性を向上させるために安全プロンプトを自動的に最適化する可能性が妨げられています。
この問題を動機として、私たちはモデル表現の観点から安全プロンプトの影響を調査します。
モデルの表現空間では、有害なクエリと無害なクエリを大きく区別できることがわかりましたが、これは安全プロンプトによって顕著に強化されるわけではありません。
代わりに、クエリの表現は、さまざまな安全プロンプトによって同様の方向に動かされ、クエリが無害であってもモデルが拒否 (つまり、支援の提供を拒否) する傾向が高くなります。
これらの発見に触発されて、私たちは安全プロンプトの自動最適化のための DRO (Directed Representation Optimization) と呼ばれる手法を提案します。
DRO は、安全性プロンプトを継続的でトレーニング可能な埋め込みとして扱い、有害/無害なクエリの表現をモデルの拒否確率が増加する方向に沿って/反対方向に移動することを学習します。
私たちは、DRO が人間が作成した安全プロンプトの保護パフォーマンスを著しく向上させ、一般的なモデルの機能を損なうことなく、ドメイン外のベンチマークで評価した強力なベースラインを上回るパフォーマンスを示すことを実証します。

要約(オリジナル)

Prepending model inputs with safety prompts is a common practice of safeguarding large language models (LLMs) from complying with queries that contain harmful intents. However, the working mechanisms of safety prompts have not yet been fully understood, which hinders the potential for automatically optimizing them for improved LLM safety. Motivated by this problem, we investigate the impact of safety prompts from the perspective of model representations. We find that in models’ representation space, harmful and harmless queries can be largely distinguished, but this is not noticeably enhanced by safety prompts. Instead, the queries’ representations are moved by different safety prompts in similar directions, where models become more prone to refusal (i.e., refusing to provide assistance) even when the queries are harmless. Inspired by these findings, we propose a method called DRO (Directed Representation Optimization) for automatic safety prompt optimization. DRO treats safety prompts as continuous, trainable embeddings and learns to move the representations of harmful/harmless queries along/opposite the direction in which the model’s refusal probability increases. We demonstrate that DRO remarkably improves the safeguarding performance of human-crafted safety prompts and outperforms strong baselines, as evaluated on out-of-domain benchmarks, without compromising the general model capability.

arxiv情報

著者 Chujie Zheng,Fan Yin,Hao Zhou,Fandong Meng,Jie Zhou,Kai-Wei Chang,Minlie Huang,Nanyun Peng
発行日 2024-01-31 17:28:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク