The WMDP Benchmark: Measuring and Reducing Malicious Use With Unlearning

要約

人工知能に関するホワイトハウス大統領令は、生物兵器、サイバー兵器、化学兵器の開発において悪意のある者に権限を与える大規模言語モデル (LLM) のリスクを強調しています。
こうした悪意のある使用のリスクを測定するために、政府機関や主要な AI 研究所は、LLM の危険な機能の評価を開発しています。
ただし、現在の評価は非公開であるため、リスクを軽減するためのさらなる研究はできません。
さらに、彼らは、悪意のある使用のための非常に特殊な少数の経路のみに焦点を当てています。
これらのギャップを埋めるために、私たちは大量破壊兵器代理ベンチマーク (WMDP) を一般公開します。これは、バイオセキュリティ、サイバーセキュリティ、化学セキュリティにおける危険な知識の代理測定として機能する 4,157 個の多肢選択式質問のデータセットです。
WMDP は学者と技術コンサルタントのコンソーシアムによって開発され、公開前に機密情報を排除するために厳格にフィルタリングされています。
WMDP は 2 つの役割を果たします。1 つは LLM の危険な知識の評価として、もう 1 つはそのような危険な知識を除去するためのアンラーニング方法のベンチマークとしてです。
非学習の進行を導くために、モデル表現の制御に基づいた最先端の非学習手法である CUT を開発します。
CUT は、生物学やコンピューター サイエンスなどの分野での一般的な機能を維持しながら、WMDP でのモデルのパフォーマンスを低下させます。これは、アンラーニングが LLM による悪意のある使用を減らすための具体的な方法である可能性があることを示唆しています。
ベンチマークとコードを https://wmdp.ai で公開します。

要約(オリジナル)

The White House Executive Order on Artificial Intelligence highlights the risks of large language models (LLMs) empowering malicious actors in developing biological, cyber, and chemical weapons. To measure these risks of malicious use, government institutions and major AI labs are developing evaluations for hazardous capabilities in LLMs. However, current evaluations are private, preventing further research into mitigating risk. Furthermore, they focus on only a few, highly specific pathways for malicious use. To fill these gaps, we publicly release the Weapons of Mass Destruction Proxy (WMDP) benchmark, a dataset of 4,157 multiple-choice questions that serve as a proxy measurement of hazardous knowledge in biosecurity, cybersecurity, and chemical security. WMDP was developed by a consortium of academics and technical consultants, and was stringently filtered to eliminate sensitive information prior to public release. WMDP serves two roles: first, as an evaluation for hazardous knowledge in LLMs, and second, as a benchmark for unlearning methods to remove such hazardous knowledge. To guide progress on unlearning, we develop CUT, a state-of-the-art unlearning method based on controlling model representations. CUT reduces model performance on WMDP while maintaining general capabilities in areas such as biology and computer science, suggesting that unlearning may be a concrete path towards reducing malicious use from LLMs. We release our benchmark and code publicly at https://wmdp.ai

arxiv情報

著者 Nathaniel Li,Alexander Pan,Anjali Gopal,Summer Yue,Daniel Berrios,Alice Gatti,Justin D. Li,Ann-Kathrin Dombrowski,Shashwat Goel,Long Phan,Gabriel Mukobi,Nathan Helm-Burger,Rassin Lababidi,Lennart Justen,Andrew B. Liu,Michael Chen,Isabelle Barrass,Oliver Zhang,Xiaoyuan Zhu,Rishub Tamirisa,Bhrugu Bharathi,Adam Khoja,Ariel Herbert-Voss,Cort B. Breuer,Andy Zou,Mantas Mazeika,Zifan Wang,Palash Oswal,Weiran Liu,Adam A. Hunt,Justin Tienken-Harder,Kevin Y. Shih,Kemper Talley,John Guan,Russell Kaplan,Ian Steneker,David Campbell,Brad Jokubaitis,Alex Levinson,Jean Wang,William Qian,Kallol Krishna Karmakar,Steven Basart,Stephen Fitz,Mindy Levine,Ponnurangam Kumaraguru,Uday Tupakula,Vijay Varadharajan,Yan Shoshitaishvili,Jimmy Ba,Kevin M. Esvelt,Alexandr Wang,Dan Hendrycks
発行日 2024-03-05 18:59:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CY, cs.LG パーマリンク