Auditing for Human Expertise

要約

患者の診断など、重要度の高い予測タスクは、訓練された人間の専門家によって処理されることが多い。このような場面での自動化に関する一般的な懸念は、専門家がモデル化が困難な直感を行使したり、アルゴリズムでは入手不可能な情報(例えば、患者との会話など)にアクセスできる場合があるということです。このことは、人間の専門家が、アルゴリズムによる予測では捉えられない価値を付加しているのか、という自然な疑問を提起する。我々は、この疑問を自然な仮説検証として提起できる統計的フレームワークを開発する。実際、我々のフレームワークが強調するように、人間の専門性を検出することは、専門家の予測精度と特定の学習アルゴリズムによる予測精度を単純に比較するよりも微妙なことなのである。その代わりに、我々は、専門家の予測が、利用可能な入力(`features’)で条件付けした後、関心のある結果から統計的に独立しているかどうかをテストする簡単な手順を提案する。このテストは、人間の専門家が、利用可能なデータで訓練されたどのアルゴリズムにも価値を与える可能性があることを示唆し、与えられた予測タスクにおいて人間とAIとの「相補性」が達成可能かどうかに直接影響を与える。急性消化管出血(AGIB)患者に対する医師の入退院の決定には、標準的なアルゴリズムによるスクリーニングツールでは捉えられない情報が組み込まれているようであることを示す。これは、スクリーニングツールの精度が医師の裁量による判断よりも高いという事実にもかかわらず、説明責任や解釈可能性に関する規範的な懸念がないとしても、アルゴリズムによる自動化を正当化するには精度が不十分であることを浮き彫りにするものである。

要約(オリジナル)

High-stakes prediction tasks (e.g., patient diagnosis) are often handled by trained human experts. A common source of concern about automation in these settings is that experts may exercise intuition that is difficult to model and/or have access to information (e.g., conversations with a patient) that is simply unavailable to a would-be algorithm. This raises a natural question whether human experts add value which could not be captured by an algorithmic predictor. We develop a statistical framework under which we can pose this question as a natural hypothesis test. Indeed, as our framework highlights, detecting human expertise is more subtle than simply comparing the accuracy of expert predictions to those made by a particular learning algorithm. Instead, we propose a simple procedure which tests whether expert predictions are statistically independent from the outcomes of interest after conditioning on the available inputs (`features’). A rejection of our test thus suggests that human experts may add value to any algorithm trained on the available data, and has direct implications for whether human-AI `complementarity’ is achievable in a given prediction task. We highlight the utility of our procedure using admissions data collected from the emergency department of a large academic hospital system, where we show that physicians’ admit/discharge decisions for patients with acute gastrointestinal bleeding (AGIB) appear to be incorporating information not captured in a standard algorithmic screening tool. This is despite the fact that the screening tool is arguably more accurate than physicians’ discretionary decisions, highlighting that — even absent normative concerns about accountability or interpretability — accuracy is insufficient to justify algorithmic automation.

arxiv情報

著者 Rohan Alur,Loren Laine,Darrick K. Li,Manish Raghavan,Devavrat Shah,Dennis Shung
発行日 2023-06-02 16:15:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CY, cs.LG, stat.ML パーマリンク