A Decision-driven Methodology for Designing Uncertainty-aware AI Self-Assessment

要約

人工知能(AI)は、社会全体の意思決定プロセスやシステムに革命をもたらし、特に、国益に関わる影響力の大きいシナリオにおいて重要な技術として台頭してきた。しかし、制御された環境におけるAIの優れた予測能力にもかかわらず、さまざまな重要なシナリオでの普及を阻むさまざまな実用上の欠点がある。特に、あるAIシステムの予測が、下流工程の意思決定者に信頼されるかどうかは、一般的に不透明である。より透明性が高く、ロバストで、信頼できるAIシステムの必要性に対処するため、AI予測の不確実性を定量化し、より一般的には、AIが予測の信頼性を「自己評価」できるようにする一連のツールが開発されてきた。この原稿では、AIの自己評価手法をいくつかの主要な次元に沿って分類し、実務家のニーズに適した手法を選択・設計するためのガイドラインを提供する。特に、自己評価が下流の意思決定者が行う選択や、その結果としての意思決定結果のコストと便益に与える影響を考慮した不確実性推定手法に焦点を当てる。自己評価設計のための我々の方法論の有用性を示すために、2つの現実的な国益シナリオに対するその使用法を説明する。本原稿は、機械学習エンジニアやAIシステム利用者が、それぞれの問題に対して理想的な自己評価手法を選択するための実践的なガイドとなる。

要約(オリジナル)

Artificial intelligence (AI) has revolutionized decision-making processes and systems throughout society and, in particular, has emerged as a significant technology in high-impact scenarios of national interest. Yet, despite AI’s impressive predictive capabilities in controlled settings, it still suffers from a range of practical setbacks preventing its widespread use in various critical scenarios. In particular, it is generally unclear if a given AI system’s predictions can be trusted by decision-makers in downstream applications. To address the need for more transparent, robust, and trustworthy AI systems, a suite of tools has been developed to quantify the uncertainty of AI predictions and, more generally, enable AI to ‘self-assess’ the reliability of its predictions. In this manuscript, we categorize methods for AI self-assessment along several key dimensions and provide guidelines for selecting and designing the appropriate method for a practitioner’s needs. In particular, we focus on uncertainty estimation techniques that consider the impact of self-assessment on the choices made by downstream decision-makers and on the resulting costs and benefits of decision outcomes. To demonstrate the utility of our methodology for self-assessment design, we illustrate its use for two realistic national-interest scenarios. This manuscript is a practical guide for machine learning engineers and AI system users to select the ideal self-assessment techniques for each problem.

arxiv情報

著者 Gregory Canal,Vladimir Leung,Philip Sage,Eric Heim,I-Jeng Wang
発行日 2024-08-02 14:43:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.LG, stat.ML パーマリンク