要約
このレポートは、会話型大規模言語モデル (LLM) 用のオープンソース脆弱性スキャナーの比較分析を示します。
LLM はさまざまなアプリケーションに不可欠になるため、情報漏洩や脱獄攻撃などのセキュリティ リスクにさらされる潜在的な攻撃対象領域も存在します。
私たちの調査では、これらの脆弱性を暴露するためにレッドチームの実践を適応させる、Garak、Giskard、PyRIT、CyberSecEval などの著名なスキャナーを評価しています。
これらのスキャナーの特徴的な機能と実際の使用方法を詳しく説明し、その設計の統一原理を概説し、それらを比較するための定量的評価を実行します。
これらの評価により、攻撃の成功を検出する際の信頼性に関する重大な問題が明らかになり、将来の開発に対する根本的なギャップが浮き彫りになります。
さらに、このギャップを埋めるための最初のステップとして、予備的なラベル付きデータセットを提供します。
上記に基づいて、カスタマイズ性、テスト スイートの包括性、業界固有の使用例を考慮して、組織がレッド チームのニーズに最適なスキャナーを選択できるよう支援するための戦略的な推奨事項を提供します。
要約(オリジナル)
This report presents a comparative analysis of open-source vulnerability scanners for conversational large language models (LLMs). As LLMs become integral to various applications, they also present potential attack surfaces, exposed to security risks such as information leakage and jailbreak attacks. Our study evaluates prominent scanners – Garak, Giskard, PyRIT, and CyberSecEval – that adapt red-teaming practices to expose these vulnerabilities. We detail the distinctive features and practical use of these scanners, outline unifying principles of their design and perform quantitative evaluations to compare them. These evaluations uncover significant reliability issues in detecting successful attacks, highlighting a fundamental gap for future development. Additionally, we contribute a preliminary labelled dataset, which serves as an initial step to bridge this gap. Based on the above, we provide strategic recommendations to assist organizations choose the most suitable scanner for their red-teaming needs, accounting for customizability, test suite comprehensiveness, and industry-specific use cases.
arxiv情報
著者 | Jonathan Brokman,Omer Hofman,Oren Rachmil,Inderjeet Singh,Rathina Sabapathy Aishvariya Priya,Vikas Pahuja,Amit Giloni,Roman Vainshtein,Hisashi Kojima |
発行日 | 2024-11-13 17:30:33+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google