PrimeGuard: Safe and Helpful LLMs through Tuning-Free Routing

要約

言語モデル (LM) を導入するには、出力が高品質であり、安全ガイドラインに準拠している必要があります。
推論時間ガードレール (ITG) は、モデルの出力分布をコンプライアンスに向けてシフトするソリューションを提供しますが、現在の方法では安全性と有用性のバランスをとるのに苦労していることがわかりました。
非準拠クエリに安全に対処する ITG メソッドは有用性が低くなりますが、有用性を優先するメソッドは安全性を犠牲にします。
このトレードオフを、調整税に似たガードレール税と呼びます。
これに対処するために、構造化された制御フローを利用する新しい ITG 手法である PrimeGuard を提案します。
PrimeGuard は、固有の命令追従機能とコンテキスト内学習を活用して、さまざまな命令を使用してリクエストを LM のさまざまな自己インスタンス化にルーティングします。
当社のチューニング不要のアプローチは、クエリごとにシステム設計者のガイドラインを動的にコンパイルします。
私たちは、多様なレッドチーム安全ベンチマークであるsafe-evalを構築し、リリースします。
広範な評価により、PrimeGuard は微調整を行わずに、(1) 反復的なジェイルブレイク攻撃に対する耐性を大幅に向上させ、(2) 安全ガードレールで最先端の結果を達成しながら、(3)
アライメント調整モデル。
広範な評価により、PrimeGuard は、微調整を行わなくても、攻撃を軽減しながら、安全な応答の割合を 61% から 97% に改善し、平均有用性スコアを 4.17 から 4.29 に向上させることで、競合するすべてのベースラインを上回り、ガードレール税を克服できることが実証されています。
成功率は100%から8%まで。
PrimeGuard の実装は https://github.com/dynamofl/PrimeGuard で入手でき、safe-eval データセットは https://huggingface.co/datasets/dynamoai/safe_eval で入手できます。

要約(オリジナル)

Deploying language models (LMs) necessitates outputs to be both high-quality and compliant with safety guidelines. Although Inference-Time Guardrails (ITG) offer solutions that shift model output distributions towards compliance, we find that current methods struggle in balancing safety with helpfulness. ITG Methods that safely address non-compliant queries exhibit lower helpfulness while those that prioritize helpfulness compromise on safety. We refer to this trade-off as the guardrail tax, analogous to the alignment tax. To address this, we propose PrimeGuard, a novel ITG method that utilizes structured control flow. PrimeGuard routes requests to different self-instantiations of the LM with varying instructions, leveraging its inherent instruction-following capabilities and in-context learning. Our tuning-free approach dynamically compiles system-designer guidelines for each query. We construct and release safe-eval, a diverse red-team safety benchmark. Extensive evaluations demonstrate that PrimeGuard, without fine-tuning, overcomes the guardrail tax by (1) significantly increasing resistance to iterative jailbreak attacks and (2) achieving state-of-the-art results in safety guardrailing while (3) matching helpfulness scores of alignment-tuned models. Extensive evaluations demonstrate that PrimeGuard, without fine-tuning, outperforms all competing baselines and overcomes the guardrail tax by improving the fraction of safe responses from 61% to 97% and increasing average helpfulness scores from 4.17 to 4.29 on the largest models, while reducing attack success rate from 100% to 8%. PrimeGuard implementation is available at https://github.com/dynamofl/PrimeGuard and safe-eval dataset is available at https://huggingface.co/datasets/dynamoai/safe_eval.

arxiv情報

著者 Blazej Manczak,Eliott Zemour,Eric Lin,Vaikkunth Mugunthan
発行日 2024-07-23 09:14:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CR, cs.SE パーマリンク