Controlling Counterfactual Harm in Decision Support Systems Based on Prediction Sets

要約

予測セットに基づく意思決定支援システムは、潜在的なラベル値のセットをそのサブセット、つまり予測セットに絞り込み、常に予測セットからラベル値を予測するように依頼することで、人間が多クラス分類タスクを解決するのに役立ちます。
このタイプのシステムは、人間による予測の平均精度を向上させるのに効果的であることが証明されていますが、人間の主体性を制限することで、真実の予測に成功した人間$\unicode{x2014}$に害を及ぼす可能性があります。
これらのシステムを使用していたら、インスタンスのラベル自体が失敗した可能性があります。
このペーパーでは、私たちの目標は、予測セットに基づく意思決定支援システムが害を及ぼす頻度を設計上制御することです。
この目的を達成するために、構造的因果モデルの理論的枠組みを使用して、上記の危害の概念を特徴付けることから始めます。
次に、検証不可能ではあるものの、自然な単調性の仮定の下で、人間が独自に行った予測のみを使用して、システムが害を及ぼす頻度を推定できることを示します。
さらに、実験的に検証できる弱い単調性の仮定の下では、人間が独自に行った予測のみを使用して、システムが再び害を及ぼす頻度を制限できることも示します。
これらの仮定に基づいて、コンフォーマルリスク制御を使用して、ユーザーが指定した値よりも害を及ぼす頻度が低いことが保証される予測セットに基づいて意思決定支援システムを設計するための計算フレームワークを導入します。
私たちは、2 つの異なる人間を対象とした研究から得られた実際の人間の予測を使用してフレームワークを検証し、予測セットに基づく意思決定支援システムでは、精度と反事実の害との間にトレードオフがあることを示します。

要約(オリジナル)

Decision support systems based on prediction sets help humans solve multiclass classification tasks by narrowing down the set of potential label values to a subset of them, namely a prediction set, and asking them to always predict label values from the prediction sets. While this type of systems have been proven to be effective at improving the average accuracy of the predictions made by humans, by restricting human agency, they may cause harm$\unicode{x2014}$a human who has succeeded at predicting the ground-truth label of an instance on their own may have failed had they used these systems. In this paper, our goal is to control how frequently a decision support system based on prediction sets may cause harm, by design. To this end, we start by characterizing the above notion of harm using the theoretical framework of structural causal models. Then, we show that, under a natural, albeit unverifiable, monotonicity assumption, we can estimate how frequently a system may cause harm using only predictions made by humans on their own. Further, we also show that, under a weaker monotonicity assumption, which can be verified experimentally, we can bound how frequently a system may cause harm again using only predictions made by humans on their own. Building upon these assumptions, we introduce a computational framework to design decision support systems based on prediction sets that are guaranteed to cause harm less frequently than a user-specified value using conformal risk control. We validate our framework using real human predictions from two different human subject studies and show that, in decision support systems based on prediction sets, there is a trade-off between accuracy and counterfactual harm.

arxiv情報

著者 Eleni Straitouri,Suhas Thejaswi,Manuel Gomez Rodriguez
発行日 2024-12-04 16:04:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CY, cs.HC, cs.LG, stat.ME パーマリンク