Does AI help humans make better decisions? A methodological framework for experimental evaluation

要約

人工知能 (AI)、より一般的にはデータ駆動型アルゴリズムの使用は、今日の社会で広く普及しています。
しかし、多くの場合、特に賭け金が高い場合には、依然として人間が最終決定を下します。
したがって、重要な問題は、AI が人間のみのシステムまたは AI のみのシステムと比較して、人間がより適切な意思決定を行うのに役立つかどうかです。
我々は、追加の仮定なしにこの質問に実験的に答えるための新しい方法論的枠組みを導入します。
私たちは、ベースラインの潜在的な結果に基づく標準的な分類指標を使用して、意思決定者の正しい意思決定を行う能力を測定します。
ここでは、AI によって生成された推奨事項の提供がケース全体でランダム化され、人間が最終決定を行う単一盲検実験計画を検討します。
この実験計画では、人間単独、人間と AI、および AI 単独の 3 つの代替意思決定システムのパフォーマンスを比較する方法を示します。
また、人間の意思決定者に AI の推奨事項を提供するタイミングと、そのような推奨事項に従う必要がある場合についても示します。
私たちは、提案された方法論を、公判前リスク評価手段の独自のランダム化対照試験からのデータに適用します。
リスク評価の推奨事項は、現金保釈を課すという裁判官の決定の分類の正確性を向上させないことがわかりました。
私たちの分析では、リスク評価のみの決定は一般に、アルゴリズムの支援の有無にかかわらず、人間による決定よりもパフォーマンスが低いことも示しています。

要約(オリジナル)

The use of Artificial Intelligence (AI), or more generally data-driven algorithms, has become ubiquitous in today’s society. Yet, in many cases and especially when stakes are high, humans still make final decisions. The critical question, therefore, is whether AI helps humans make better decisions compared to a human-alone or AI-alone system. We introduce a new methodological framework to experimentally answer this question without additional assumptions. We measure a decision maker’s ability to make correct decisions using standard classification metrics based on the baseline potential outcome. We consider a single-blinded experimental design, in which the provision of AI-generated recommendations is randomized across cases with humans making final decisions. Under this experimental design, we show how to compare the performance of three alternative decision-making systems — human-alone, human-with-AI, and AI-alone. We also show when to provide a human-decision maker with AI recommendations and when they should follow such recommendations. We apply the proposed methodology to the data from our own randomized controlled trial of a pretrial risk assessment instrument. We find that the risk assessment recommendations do not improve the classification accuracy of a judge’s decision to impose cash bail. Our analysis also shows that the risk assessment-alone decisions generally perform worse than human decisions with or without algorithmic assistance.

arxiv情報

著者 Eli Ben-Michael,D. James Greiner,Melody Huang,Kosuke Imai,Zhichao Jiang,Sooahn Shin
発行日 2024-09-24 14:28:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, econ.GN, q-fin.EC, stat.AP, stat.ME パーマリンク