Protecting Society from AI Misuse: When are Restrictions on Capabilities Warranted?

要約

人工知能 (AI) システムは、機能が向上するにつれて、害を引き起こすためにますます使用されるようになります。
実際、AI システムは、不正行為の自動化、人権侵害、有害な偽画像の作成、危険な毒素の特定にすでに使用され始めています。
AIの誤用を防ぐために、特定の機能に対する的を絞った介入が正当化されると主張します。
これらの制限には、特定の種類の AI モデルにアクセスできるユーザー、それらを使用できる目的、出力をフィルター処理するかユーザーまで追跡できるか、およびそれらを開発するために必要なリソースの制御が含まれる場合があります。
また、危害を加えるために必要な非 AI 機能に対するいくつかの制限が必要になると主張しています。
機能の制限は、誤用よりも使用を減らすリスクがありますが (好ましくない誤用と使用のトレードオフに直面しています)、他の介入が不十分であり、誤用による潜在的な害が高く、機能に介入するための的を絞った方法がある場合、機能への介入が正当化されると私たちは主張します。
.
AI の誤用を減らすことができる介入の分類法を提供し、誤用が害を引き起こすために必要な特定の手順 (誤用の連鎖) と、介入が正当であるかどうかを判断するためのフレームワークに焦点を当てています。
この推論を、新しい毒素の予測、有害な画像の作成、スピア フィッシング キャンペーンの自動化の 3 つの例に適用します。

要約(オリジナル)

Artificial intelligence (AI) systems will increasingly be used to cause harm as they grow more capable. In fact, AI systems are already starting to be used to automate fraudulent activities, violate human rights, create harmful fake images, and identify dangerous toxins. To prevent some misuses of AI, we argue that targeted interventions on certain capabilities will be warranted. These restrictions may include controlling who can access certain types of AI models, what they can be used for, whether outputs are filtered or can be traced back to their user, and the resources needed to develop them. We also contend that some restrictions on non-AI capabilities needed to cause harm will be required. Though capability restrictions risk reducing use more than misuse (facing an unfavorable Misuse-Use Tradeoff), we argue that interventions on capabilities are warranted when other interventions are insufficient, the potential harm from misuse is high, and there are targeted ways to intervene on capabilities. We provide a taxonomy of interventions that can reduce AI misuse, focusing on the specific steps required for a misuse to cause harm (the Misuse Chain), and a framework to determine if an intervention is warranted. We apply this reasoning to three examples: predicting novel toxins, creating harmful images, and automating spear phishing campaigns.

arxiv情報

著者 Markus Anderljung,Julian Hazell
発行日 2023-03-16 15:05:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CY, K.4.1 パーマリンク