Backdoor Removal for Generative Large Language Models

要約

急速な進歩により、生成大言語モデル (LLM) は、理解から推論に至るまでのさまざまな自然言語処理 (NLP) タスクを支配します。
しかし、アクセシビリティの向上と、インターネットからの大量のテキスト データに対する無制限のモデル トレーニングにより、言語モデルに固有の脆弱性が悪化する可能性があります。
悪意のある攻撃者は、汚染されたデータをオンラインで公開し、汚染されたデータで事前にトレーニングされた被害者の LLM に対してバックドア攻撃を実行する可能性があります。
バックドア LLM は、通常のクエリに対して無害に動作し、バックドア トリガーがアクティブになると有害な応答を生成します。
LLM の安全性の問題に対して多大な努力が払われているにもかかわらず、LLM は依然としてバックドア攻撃に対して苦戦しています。
Anthropic が最近明らかにしたように、教師あり微調整 (SFT) やヒューマン フィードバックからの強化学習 (RLHF) などの既存の安全トレーニング戦略は、トレーニング前の段階で LLM にバックドアが仕掛けられると、バックドアを無効にすることができません。
このペーパーでは、生成 LLM の望ましくないバックドア マッピングを消去する Simulate and Eliminate (SANDE) を紹介します。
私たちは最初に、トリガーがわかっている場合にバックドアを効果的に削除するための上書き監視ファインチューニング (OSFT) を提案します。
次に、トリガー パターンが不明なシナリオを処理するために、OSFT を 2 段階のフレームワークである SANDE に統合します。
バックドアの特定を中心としたこれまでの研究とは異なり、当社の安全性が強化された LLM は、正確なトリガーがアクティブ化された場合でも通常どおりに動作できます。
私たちは、バックドアのないクリーンなモデルに追加アクセスすることなく、LLM の強力な機能への害を最小限に抑えながら、私たちが提案する SANDE がバックドア攻撃に対して効果的であることを示すために包括的な実験を実施します。
再現可能なコードを公開します。

要約(オリジナル)

With rapid advances, generative large language models (LLMs) dominate various Natural Language Processing (NLP) tasks from understanding to reasoning. Yet, language models’ inherent vulnerabilities may be exacerbated due to increased accessibility and unrestricted model training on massive textual data from the Internet. A malicious adversary may publish poisoned data online and conduct backdoor attacks on the victim LLMs pre-trained on the poisoned data. Backdoored LLMs behave innocuously for normal queries and generate harmful responses when the backdoor trigger is activated. Despite significant efforts paid to LLMs’ safety issues, LLMs are still struggling against backdoor attacks. As Anthropic recently revealed, existing safety training strategies, including supervised fine-tuning (SFT) and Reinforcement Learning from Human Feedback (RLHF), fail to revoke the backdoors once the LLM is backdoored during the pre-training stage. In this paper, we present Simulate and Eliminate (SANDE) to erase the undesired backdoored mappings for generative LLMs. We initially propose Overwrite Supervised Fine-tuning (OSFT) for effective backdoor removal when the trigger is known. Then, to handle the scenarios where the trigger patterns are unknown, we integrate OSFT into our two-stage framework, SANDE. Unlike previous works that center on the identification of backdoors, our safety-enhanced LLMs are able to behave normally even when the exact triggers are activated. We conduct comprehensive experiments to show that our proposed SANDE is effective against backdoor attacks while bringing minimal harm to LLMs’ powerful capability without any additional access to unbackdoored clean models. We will release the reproducible code.

arxiv情報

著者 Haoran Li,Yulin Chen,Zihao Zheng,Qi Hu,Chunkit Chan,Heshan Liu,Yangqiu Song
発行日 2024-05-13 11:53:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CR パーマリンク