Introducing v0.5 of the AI Safety Benchmark from MLCommons

要約

このペーパーでは、MLCommons AI Safety Working Group によって作成された AI Safety Benchmark v0.5 について紹介します。
AI 安全性ベンチマークは、チャット調整された言語モデルを使用する AI システムの安全性リスクを評価するように設計されています。
ベンチマークの指定と構築に対する原則的なアプローチを導入します。v0.5 では、単一のユース ケース (英語で汎用アシスタントとチャットする大人) と、限られたペルソナ セット (つまり、典型的なユーザー、悪意のあるユーザー) のみをカバーします。
ユーザー、および脆弱なユーザー)。
13 のハザード カテゴリの新しい分類を作成し、そのうち 7 つは v0.5 ベンチマークでテストされています。
AI 安全性ベンチマークのバージョン 1.0 を 2024 年末までにリリースする予定です。v1.0 ベンチマークは、AI システムの安全性について有意義な洞察を提供します。
ただし、v0.5 ベンチマークは AI システムの安全性を評価するために使用すべきではありません。
私たちは、v0.5 の制限、欠陥、課題を完全に文書化するよう努めてきました。
AI セーフティ ベンチマーク v0.5 のこのリリースには、(1) ユース ケース、テスト対象システム (SUT) の種類、言語とコンテキスト、ペルソナ、テスト、およびテスト項目で構成されるベンチマークを指定および構築するための原則的なアプローチが含まれています。
;
(2) 定義とサブカテゴリーを含む 13 の危険カテゴリーの分類。
(3) 7 つの危険カテゴリーに対するテスト。それぞれが固有のテスト項目セット、つまりプロンプトで構成されます。
テンプレートを使用して作成したテスト項目は合計 43,090 個あります。
(4) ベンチマークに対する AI システムの評価システム。
(5) ベンチマークで AI システムの安全性を評価するために使用できる、ModelBench と呼ばれるオープンに利用可能なプラットフォームとダウンロード可能なツール。
(6) 公開されている 12 を超えるチャット調整言語モデルのパフォーマンスをベンチマークする評価レポートの例。
(7) ベンチマークのテスト仕様。

要約(オリジナル)

This paper introduces v0.5 of the AI Safety Benchmark, which has been created by the MLCommons AI Safety Working Group. The AI Safety Benchmark has been designed to assess the safety risks of AI systems that use chat-tuned language models. We introduce a principled approach to specifying and constructing the benchmark, which for v0.5 covers only a single use case (an adult chatting to a general-purpose assistant in English), and a limited set of personas (i.e., typical users, malicious users, and vulnerable users). We created a new taxonomy of 13 hazard categories, of which 7 have tests in the v0.5 benchmark. We plan to release version 1.0 of the AI Safety Benchmark by the end of 2024. The v1.0 benchmark will provide meaningful insights into the safety of AI systems. However, the v0.5 benchmark should not be used to assess the safety of AI systems. We have sought to fully document the limitations, flaws, and challenges of v0.5. This release of v0.5 of the AI Safety Benchmark includes (1) a principled approach to specifying and constructing the benchmark, which comprises use cases, types of systems under test (SUTs), language and context, personas, tests, and test items; (2) a taxonomy of 13 hazard categories with definitions and subcategories; (3) tests for seven of the hazard categories, each comprising a unique set of test items, i.e., prompts. There are 43,090 test items in total, which we created with templates; (4) a grading system for AI systems against the benchmark; (5) an openly available platform, and downloadable tool, called ModelBench that can be used to evaluate the safety of AI systems on the benchmark; (6) an example evaluation report which benchmarks the performance of over a dozen openly available chat-tuned language models; (7) a test specification for the benchmark.

arxiv情報

著者 Bertie Vidgen,Adarsh Agrawal,Ahmed M. Ahmed,Victor Akinwande,Namir Al-Nuaimi,Najla Alfaraj,Elie Alhajjar,Lora Aroyo,Trupti Bavalatti,Borhane Blili-Hamelin,Kurt Bollacker,Rishi Bomassani,Marisa Ferrara Boston,Siméon Campos,Kal Chakra,Canyu Chen,Cody Coleman,Zacharie Delpierre Coudert,Leon Derczynski,Debojyoti Dutta,Ian Eisenberg,James Ezick,Heather Frase,Brian Fuller,Ram Gandikota,Agasthya Gangavarapu,Ananya Gangavarapu,James Gealy,Rajat Ghosh,James Goel,Usman Gohar,Sujata Goswami,Scott A. Hale,Wiebke Hutiri,Joseph Marvin Imperial,Surgan Jandial,Nick Judd,Felix Juefei-Xu,Foutse Khomh,Bhavya Kailkhura,Hannah Rose Kirk,Kevin Klyman,Chris Knotz,Michael Kuchnik,Shachi H. Kumar,Chris Lengerich,Bo Li,Zeyi Liao,Eileen Peters Long,Victor Lu,Yifan Mai,Priyanka Mary Mammen,Kelvin Manyeki,Sean McGregor,Virendra Mehta,Shafee Mohammed,Emanuel Moss,Lama Nachman,Dinesh Jinenhally Naganna,Amin Nikanjam,Besmira Nushi,Luis Oala,Iftach Orr,Alicia Parrish,Cigdem Patlak,William Pietri,Forough Poursabzi-Sangdeh,Eleonora Presani,Fabrizio Puletti,Paul Röttger,Saurav Sahay,Tim Santos,Nino Scherrer,Alice Schoenauer Sebag,Patrick Schramowski,Abolfazl Shahbazi,Vin Sharma,Xudong Shen,Vamsi Sistla,Leonard Tang,Davide Testuggine,Vithursan Thangarasa,Elizabeth Anne Watkins,Rebecca Weiss,Chris Welty,Tyler Wilbers,Adina Williams,Carole-Jean Wu,Poonam Yadav,Xianjun Yang,Yi Zeng,Wenhui Zhang,Fedor Zhdanov,Jiacheng Zhu,Percy Liang,Peter Mattson,Joaquin Vanschoren
発行日 2024-04-18 15:01:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク