Navigating the OverKill in Large Language Models

要約

大規模な言語モデルは、役立つと同時に無害になるように細心の注意を払って調整されています。
ただし、最近の研究では、モデルが無害なクエリへの応答を拒否する可能性があるという潜在的な過剰攻撃が指摘されています。
このペーパーでは、モデルがクエリの安全性をどのように処理し、判断するかを調べることで、オーバーキルの要因を調査します。
私たちの調査結果では、モデル内にショートカットが存在し、「殺す」などの有害な単語への過度の注意につながり、安全性を強調するプロンプトが過剰殺しを悪化させることが明らかになりました。
これらの洞察に基づいて、この現象を軽減するために、トレーニング不要でモデルに依存しない戦略である自己対比復号 (Self-CD) を導入します。
まず、安全性の強調を含むまたは省略するシステム プロンプトに応答するときのモデルの出力分布の違いを増幅することによって、そのような過剰な注意を抽出します。
次に、対照的なデコードを通じてモデルからの過剰な注意を軽視することにより、最終的な次のトークンの予測を決定します。
経験的な結果は、私たちの方法が安全性にほとんど影響を与えずに、拒否率の平均 20% の削減を達成したことを示しています。

要約(オリジナル)

Large language models are meticulously aligned to be both helpful and harmless. However, recent research points to a potential overkill which means models may refuse to answer benign queries. In this paper, we investigate the factors for overkill by exploring how models handle and determine the safety of queries. Our findings reveal the presence of shortcuts within models, leading to an over-attention of harmful words like ‘kill’ and prompts emphasizing safety will exacerbate overkill. Based on these insights, we introduce Self-Contrastive Decoding (Self-CD), a training-free and model-agnostic strategy, to alleviate this phenomenon. We first extract such over-attention by amplifying the difference in the model’s output distributions when responding to system prompts that either include or omit an emphasis on safety. Then we determine the final next-token predictions by downplaying the over-attention from the model via contrastive decoding. Empirical results indicate that our method has achieved an average reduction of the refusal rate by 20\% while having almost no impact on safety.

arxiv情報

著者 Chenyu Shi,Xiao Wang,Qiming Ge,Songyang Gao,Xianjun Yang,Tao Gui,Qi Zhang,Xuanjing Huang,Xun Zhao,Dahua Lin
発行日 2024-01-31 07:26:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク