Sociotechnical Safety Evaluation of Generative AI Systems

要約

生成 AI システムはさまざまなリスクを生み出します。
生成 AI システムの安全性を確保するには、これらのリスクを評価する必要があります。
この論文では、そのような評価の確立に向けて 2 つの主な貢献を行います。
まず、これらのリスクを評価するための構造化された社会技術的アプローチをとる 3 層のフレームワークを提案します。
この枠組みには、安全性評価の現在の主要なアプローチである能力評価が含まれています。
次に、システムの安全原則、特に特定の機能が危害を引き起こす可能性があるかどうかはコンテキストによって決定されるという洞察に基づいてさらに発展します。
関連するコンテキストを考慮するために、私たちのフレームワークでは、評価の追加レイヤーとして人間の相互作用とシステムへの影響が追加されています。
次に、生成AIシステムの安全性評価の現状を調査し、既存の評価のリポジトリを作成します。
この分析から、3 つの顕著な評価ギャップが明らかになります。
私たちは、これらのギャップを埋めるための今後の方法を提案し、実際的な手順と、さまざまな主体の役割と責任を概説します。
社会工学的安全性評価は、生成 AI システムの堅牢かつ包括的な安全性評価への扱いやすいアプローチです。

要約(オリジナル)

Generative AI systems produce a range of risks. To ensure the safety of generative AI systems, these risks must be evaluated. In this paper, we make two main contributions toward establishing such evaluations. First, we propose a three-layered framework that takes a structured, sociotechnical approach to evaluating these risks. This framework encompasses capability evaluations, which are the main current approach to safety evaluation. It then reaches further by building on system safety principles, particularly the insight that context determines whether a given capability may cause harm. To account for relevant context, our framework adds human interaction and systemic impacts as additional layers of evaluation. Second, we survey the current state of safety evaluation of generative AI systems and create a repository of existing evaluations. Three salient evaluation gaps emerge from this analysis. We propose ways forward to closing these gaps, outlining practical steps as well as roles and responsibilities for different actors. Sociotechnical safety evaluation is a tractable approach to the robust and comprehensive safety evaluation of generative AI systems.

arxiv情報

著者 Laura Weidinger,Maribeth Rauh,Nahema Marchal,Arianna Manzini,Lisa Anne Hendricks,Juan Mateos-Garcia,Stevie Bergman,Jackie Kay,Conor Griffin,Ben Bariach,Iason Gabriel,Verena Rieser,William Isaac
発行日 2023-10-18 14:13:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CY パーマリンク