要約
大規模な言語モデルは脱獄攻撃を受けやすく、有害なコンテンツが生成される可能性があります。
従来の防御は、入力を混乱させたり検査したりすることでこれらのリスクを軽減しますが、競合する目的、つまり調整失敗の根本的な原因を無視します。
この論文では、適応型デコーディングを採用してジェイルブレイク問題の根本原因に対処する新しい防御手段であるアライメント強化デコーディング (AED) を提案します。
まず、調整の失敗を定量化するために競争指数を定義し、自己評価からのフィードバックを利用して調整後のロジットを計算します。
次に、AED は、AED および調整後のロジットを元のロジットと適応的に組み合わせて、無害で有益な分布を取得します。
その結果、私たちの方法は有用性を維持しながら安全性の調整を強化します。
私たちは 5 つのモデルと 4 つの一般的なジェイルブレイクにわたって実験を実施し、その結果によって私たちのアプローチの有効性が検証されました。
コードは https://github.com/GIGABaozi/AED.git で入手できます。
要約(オリジナル)
Large language models are susceptible to jailbreak attacks, which can result in the generation of harmful content. While prior defenses mitigate these risks by perturbing or inspecting inputs, they ignore competing objectives, the underlying cause of alignment failures. In this paper, we propose Alignment-Enhanced Decoding (AED), a novel defense that employs adaptive decoding to address the root causes of jailbreak issues. We first define the Competitive Index to quantify alignment failures and utilize feedback from self-evaluation to compute post-alignment logits. Then, AED adaptively combines AED and post-alignment logits with the original logits to obtain harmless and helpful distributions. Consequently, our method enhances safety alignment while maintaining helpfulness. We conduct experiments across five models and four common jailbreaks, with the results validating the effectiveness of our approach. Code is available at https://github.com/GIGABaozi/AED.git.
arxiv情報
著者 | Quan Liu,Zhenhong Zhou,Longzhu He,Yi Liu,Wei Zhang,Sen Su |
発行日 | 2024-08-14 16:51:21+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google