要約
大規模な言語モデル(LLMS)の急速な成長は、大きなプライバシー、セキュリティ、倫理的懸念を示しています。
多くの研究により、悪意のある俳優による誤用からLLMシステムを擁護するための方法が提案されていますが、研究者は最近、これらの努力を赤いチーム化、つまり脆弱性を特定する目的でLLMを積極的に攻撃する攻撃的なアプローチで補完しました。
このペーパーでは、マルチコンポーネントシステムのエンドツーエンドを説明するように構成されたLLMレッドチームの文献の簡潔で実用的な概要を提供します。
レッドチームを動機付けるために、いくつかの有名なLLMの初期安全ニーズを調査し、レッドチーム化システムのさまざまなコンポーネントとそれらを実装するためのソフトウェアパッケージに飛び込みます。
さまざまな攻撃方法、攻撃サクセス評価のための戦略、実験の結果を評価するためのメトリック、およびその他の考慮事項について説明します。
私たちの調査は、実際のアプリケーションで独自の使用のために、主要な赤いチーム化の概念を迅速に把握したい読者に役立ちます。
要約(オリジナル)
The rapid growth of Large Language Models (LLMs) presents significant privacy, security, and ethical concerns. While much research has proposed methods for defending LLM systems against misuse by malicious actors, researchers have recently complemented these efforts with an offensive approach that involves red teaming, i.e., proactively attacking LLMs with the purpose of identifying their vulnerabilities. This paper provides a concise and practical overview of the LLM red teaming literature, structured so as to describe a multi-component system end-to-end. To motivate red teaming we survey the initial safety needs of some high-profile LLMs, and then dive into the different components of a red teaming system as well as software packages for implementing them. We cover various attack methods, strategies for attack-success evaluation, metrics for assessing experiment outcomes, as well as a host of other considerations. Our survey will be useful for any reader who wants to rapidly obtain a grasp of the major red teaming concepts for their own use in practical applications.
arxiv情報
著者 | Alberto Purpura,Sahil Wadhwa,Jesse Zymet,Akshay Gupta,Andy Luo,Melissa Kazemi Rad,Swapnil Shinde,Mohammad Shahed Sorower |
発行日 | 2025-03-05 14:41:38+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google