要約
大規模言語モデル (LLM) は優れた機能を実証していますが、その能力にはセキュリティに関する重要な考慮事項が伴います。
チャット モードでの LLM の安全性について広範な研究が行われてきましたが、関数呼び出し機能のセキュリティへの影響はほとんど無視されてきました。
この論文では、LLM の関数呼び出しプロセスの重大な脆弱性を明らかにし、アライメントの不一致、ユーザー強制、および厳格な安全フィルターの欠如を悪用する新しい「ジェイルブレイク関数」攻撃方法を紹介します。
GPT-4o、Claude-3.5-Sonnet、Gemini-1.5-pro を含む 6 つの最先端の LLM に対して実施された実証研究では、この攻撃の平均成功率が 90% 以上という驚くべき結果が明らかになりました。
私たちは、関数呼び出しがそのような攻撃を受けやすい理由を包括的に分析し、防御プロンプトの使用を含む防御戦略を提案します。
私たちの調査結果は、LLM の関数呼び出し機能におけるセキュリティ対策の強化が緊急に必要であることを浮き彫りにしており、これまで未調査のリスクを特定し、効果的な攻撃方法を設計し、実用的な防御手段を提案することで AI の安全性の分野に貢献します。
私たちのコードは https://github.com/wooozihui/jailbreakfunction で入手できます。
要約(オリジナル)
Large language models (LLMs) have demonstrated remarkable capabilities, but their power comes with significant security considerations. While extensive research has been conducted on the safety of LLMs in chat mode, the security implications of their function calling feature have been largely overlooked. This paper uncovers a critical vulnerability in the function calling process of LLMs, introducing a novel ‘jailbreak function’ attack method that exploits alignment discrepancies, user coercion, and the absence of rigorous safety filters. Our empirical study, conducted on six state-of-the-art LLMs including GPT-4o, Claude-3.5-Sonnet, and Gemini-1.5-pro, reveals an alarming average success rate of over 90\% for this attack. We provide a comprehensive analysis of why function calls are susceptible to such attacks and propose defensive strategies, including the use of defensive prompts. Our findings highlight the urgent need for enhanced security measures in the function calling capabilities of LLMs, contributing to the field of AI safety by identifying a previously unexplored risk, designing an effective attack method, and suggesting practical defensive measures. Our code is available at https://github.com/wooozihui/jailbreakfunction.
arxiv情報
著者 | Zihui Wu,Haichang Gao,Jianping He,Ping Wang |
発行日 | 2024-08-29 11:58:46+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google