Root Defence Strategies: Ensuring Safety of LLM at the Decoding Level

要約

大規模な言語モデル(LLM)は、さまざまな業界で膨大な効用を実証しています。
ただし、LLMSが進むにつれて、誤ったまたは悪意のある命令プロンプトにより、有害な出力のリスクが増加します。
現在の方法は脱獄リスクに効果的に対処しますが、共通の制限を共有しています。1)プレフィルレベルからの有害な反応の判断は、モデルのデコード出力の利用を欠いており、比較的低い有効性と堅牢性をもたらします。
2)単一の評価に基づいて潜在的に有害な回答を拒否すると、モデルの有用性が大幅に損なわれる可能性があります。この論文では、有害な出力を認識するLLMの能力を調べ、以前のトークンの危険性を評価する習熟度を明らかにし、定量化します。
パイロット実験結果に動機付けられ、デコードレベルで堅牢な防御メカニズムを設計します。
私たちの新しいデコーダー指向のステップバイステップの防衛アーキテクチャは、完全に拒否するのではなく、有害なクエリを直接修正します。
ユーザビリティを向上させ、展開を容易にして安全なデコード速度を高めるための投機的デコードを導入します。
広範な実験は、私たちのアプローチが推論速度を損なうことなくモデルのセキュリティを改善することを示しています。
特に、当社の方法は、危険な情報を識別するモデルの能力を活用し、既存の方法と比較してその有用性を維持します。

要約(オリジナル)

Large language models (LLMs) have demonstrated immense utility across various industries. However, as LLMs advance, the risk of harmful outputs increases due to incorrect or malicious instruction prompts. While current methods effectively address jailbreak risks, they share common limitations: 1) Judging harmful responses from the prefill-level lacks utilization of the model’s decoding outputs, leading to relatively lower effectiveness and robustness. 2) Rejecting potentially harmful responses based on a single evaluation can significantly impair the model’s helpfulness.This paper examines the LLMs’ capability to recognize harmful outputs, revealing and quantifying their proficiency in assessing the danger of previous tokens. Motivated by pilot experiment results, we design a robust defense mechanism at the decoding level. Our novel decoder-oriented, step-by-step defense architecture corrects harmful queries directly rather than rejecting them outright. We introduce speculative decoding to enhance usability and facilitate deployment to boost secure decoding speed. Extensive experiments demonstrate that our approach improves model security without compromising reasoning speed. Notably, our method leverages the model’s ability to discern hazardous information, maintaining its helpfulness compared to existing methods.

arxiv情報

著者 Xinyi Zeng,Yuying Shang,Jiawei Chen,Jingyuan Zhang,Yu Tian
発行日 2025-02-06 13:21:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CR パーマリンク