要約
大規模言語モデル (LLM) の急速な進歩は、自然言語処理に顕著な機能をもたらしましたが、潜在的な誤用に対する懸念も引き起こしました。
教師あり微調整や人間のフィードバックからの強化学習などの戦略は安全性を高めていますが、これらの方法は主に自然言語に焦点を当てており、他の領域には一般化できない可能性があります。
この論文では、自然言語入力をコード入力に変換するフレームワークである Code Attack を紹介し、LLM の安全性の一般化をテストするための新しい環境を提供します。
GPT-4、Claude-2、Llama-2 シリーズを含む最先端の LLM に関する当社の包括的な調査により、コード入力に対するこれらのモデルの共通の安全性の脆弱性が明らかになりました。Code Attack は、80 を超えるすべてのモデルの安全ガードレールを一貫してバイパスします。
\% の確率で。
さらに、Code Attack と自然言語の間の分布ギャップが大きいと、自然言語入力をデータ構造でエンコードしたり、あまり普及していないプログラミング言語を使用したりするなど、安全性の一般化が弱くなることがわかりました。
これらの調査結果は、コード ドメインにおける新たな安全リスクと、LLM のコード機能に適合するより堅牢な安全調整アルゴリズムの必要性を浮き彫りにしています。
要約(オリジナル)
The rapid advancement of Large Language Models (LLMs) has brought about remarkable capabilities in natural language processing but also raised concerns about their potential misuse. While strategies like supervised fine-tuning and reinforcement learning from human feedback have enhanced their safety, these methods primarily focus on natural languages, which may not generalize to other domains. This paper introduces CodeAttack, a framework that transforms natural language inputs into code inputs, presenting a novel environment for testing the safety generalization of LLMs. Our comprehensive studies on state-of-the-art LLMs including GPT-4, Claude-2, and Llama-2 series reveal a common safety vulnerability of these models against code input: CodeAttack consistently bypasses the safety guardrails of all models more than 80\% of the time. Furthermore, we find that a larger distribution gap between CodeAttack and natural language leads to weaker safety generalization, such as encoding natural language input with data structures or using less popular programming languages. These findings highlight new safety risks in the code domain and the need for more robust safety alignment algorithms to match the code capabilities of LLMs.
arxiv情報
著者 | Qibing Ren,Chang Gao,Jing Shao,Junchi Yan,Xin Tan,Wai Lam,Lizhuang Ma |
発行日 | 2024-03-12 17:55:38+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google