A Mechanism-Based Approach to Mitigating Harms from Persuasive Generative AI

要約

最近の生成 AI システムは、より高度な説得能力を実証しており、意思決定に影響を与えることができる生活の領域にますます浸透しています。
生成 AI は、相互交換と長期にわたる相互作用の機会により、説得の新しいリスク プロファイルを提示します。
これにより、AI の説得による害とその被害をどのように軽減できるかについての懸念が高まり、AI の説得に関する体系的な研究の必要性が強調されています。
AI 説得の現在の定義は不明瞭で、関連する害については十分に研究されていません。
既存の危害軽減アプローチでは、説得のプロセスによる危害よりも、説得の結果による危害を優先します。
この論文では、AI 説得の体系的な研究の基礎を築きます。
私たちはまず、説得力のある生成 AI の定義を提案します。
当社は、関連する事実、健全な推論、またはその他の形式の信頼できる証拠の提供に依存する合理的説得型の生成 AI と、認知バイアスやヒューリスティックを利用したり、情報を偽ったりすることに依存する操作型の生成 AI を区別します。
また、経済的、物理的、環境的、心理的、社会文化的、政治的、プライバシー、自律性への損害の定義と例を含む、AI 説得による損害のマップも提案しました。
次に、有害な説得に寄与するメカニズムのマップを紹介します。
最後に、操作分類やレッドチーム化のための迅速なエンジニアリングなど、説得によるプロセスの害を軽減するために使用できるアプローチの概要を示します。
今後の研究では、これらの緩和策を運用化し、さまざまなタイプの説得メカニズム間の相互作用を研究する予定です。

要約(オリジナル)

Recent generative AI systems have demonstrated more advanced persuasive capabilities and are increasingly permeating areas of life where they can influence decision-making. Generative AI presents a new risk profile of persuasion due the opportunity for reciprocal exchange and prolonged interactions. This has led to growing concerns about harms from AI persuasion and how they can be mitigated, highlighting the need for a systematic study of AI persuasion. The current definitions of AI persuasion are unclear and related harms are insufficiently studied. Existing harm mitigation approaches prioritise harms from the outcome of persuasion over harms from the process of persuasion. In this paper, we lay the groundwork for the systematic study of AI persuasion. We first put forward definitions of persuasive generative AI. We distinguish between rationally persuasive generative AI, which relies on providing relevant facts, sound reasoning, or other forms of trustworthy evidence, and manipulative generative AI, which relies on taking advantage of cognitive biases and heuristics or misrepresenting information. We also put forward a map of harms from AI persuasion, including definitions and examples of economic, physical, environmental, psychological, sociocultural, political, privacy, and autonomy harm. We then introduce a map of mechanisms that contribute to harmful persuasion. Lastly, we provide an overview of approaches that can be used to mitigate against process harms of persuasion, including prompt engineering for manipulation classification and red teaming. Future work will operationalise these mitigations and study the interaction between different types of mechanisms of persuasion.

arxiv情報

著者 Seliem El-Sayed,Canfer Akbulut,Amanda McCroskery,Geoff Keeling,Zachary Kenton,Zaria Jalan,Nahema Marchal,Arianna Manzini,Toby Shevlane,Shannon Vallor,Daniel Susser,Matija Franklin,Sophie Bridgers,Harry Law,Matthew Rahtz,Murray Shanahan,Michael Henry Tessler,Arthur Douillard,Tom Everitt,Sasha Brown
発行日 2024-04-23 14:07:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CY パーマリンク