AI Deception: A Survey of Examples, Risks, and Potential Solutions

要約

この論文は、現在のさまざまな AI システムが人間を欺く方法を学習していると主張しています。
私たちは、欺瞞を、真実以外の何らかの結果を追求する際に、誤った信念を組織的に誘導することと定義します。
まず、AI の欺瞞の実証例を調査し、特定の競争状況向けに構築された特殊用途 AI システム (Meta の CICERO を含む) と汎用 AI システム (大規模言語モデルなど) の両方について説明します。
次に、詐欺、選挙改ざん、AI システムの制御喪失など、AI の欺瞞によるいくつかのリスクについて詳しく説明します。
最後に、AI の欺瞞によってもたらされる問題に対するいくつかの潜在的な解決策を概説します。まず、規制の枠組みは、欺瞞が可能な AI システムに堅牢なリスク評価要件を課す必要があります。
第二に、政策立案者はボット・オア・ノット法を導入する必要があります。
そして最後に、政策立案者は、AI の欺瞞を検出し、AI システムの欺瞞性を軽減するツールなど、関連する研究への資金提供を優先する必要があります。
政策立案者、研究者、そして広く一般の人々は、AIによる欺瞞が私たちの社会の共通基盤を不安定にすることを防ぐために積極的に取り組むべきです。

要約(オリジナル)

This paper argues that a range of current AI systems have learned how to deceive humans. We define deception as the systematic inducement of false beliefs in the pursuit of some outcome other than the truth. We first survey empirical examples of AI deception, discussing both special-use AI systems (including Meta’s CICERO) built for specific competitive situations, and general-purpose AI systems (such as large language models). Next, we detail several risks from AI deception, such as fraud, election tampering, and losing control of AI systems. Finally, we outline several potential solutions to the problems posed by AI deception: first, regulatory frameworks should subject AI systems that are capable of deception to robust risk-assessment requirements; second, policymakers should implement bot-or-not laws; and finally, policymakers should prioritize the funding of relevant research, including tools to detect AI deception and to make AI systems less deceptive. Policymakers, researchers, and the broader public should work proactively to prevent AI deception from destabilizing the shared foundations of our society.

arxiv情報

著者 Peter S. Park,Simon Goldstein,Aidan O’Gara,Michael Chen,Dan Hendrycks
発行日 2023-08-28 17:59:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CY, cs.HC パーマリンク