What Makes a Good Explanation?: A Harmonized View of Properties of Explanations

要約

解釈可能性は、人間が機械学習 (ML) モデルの側面を検証し、タスクを完全に自動化できない状況で人間と ML のチーム化を可能にする手段を提供します。
コンテキストが異なれば、異なるプロパティを使用した説明が必要になります。
たとえば、早期心停止警告システムを介護現場に組み込む準備ができているかどうかを判断するために必要な説明の種類は、ローン申請者が心停止のために取るべき行動を決定するために必要な説明の種類とは大きく異なります。
彼らの申請を成功させます。
残念なことに、説明の性質に関しては標準化が欠如しています。異なる論文では、異なる量を意味するのに同じ用語が使用されたり、同じ量を意味するのに異なる用語が使用されたりすることがあります。
この標準化された用語と ML 説明のプロパティの分類が欠如しているため、解釈可能な機械学習手法を厳密に比較することも、どのようなコンテキストでどのプロパティが必要であるかを特定することもできません。
この研究では、解釈可能な機械学習論文で定義されたプロパティを調査し、実際に測定した内容に基づいてそれらを合成し、これらのプロパティのさまざまな定式化間のトレードオフを説明します。
そうすることで、タスクに適した説明プロパティの定式化をより情報に基づいて選択できるようになり、解釈可能な機械学習における将来の作業に向けた標準化が可能になります。

要約(オリジナル)

Interpretability provides a means for humans to verify aspects of machine learning (ML) models and empower human+ML teaming in situations where the task cannot be fully automated. Different contexts require explanations with different properties. For example, the kind of explanation required to determine if an early cardiac arrest warning system is ready to be integrated into a care setting is very different from the type of explanation required for a loan applicant to help determine the actions they might need to take to make their application successful. Unfortunately, there is a lack of standardization when it comes to properties of explanations: different papers may use the same term to mean different quantities, and different terms to mean the same quantity. This lack of a standardized terminology and categorization of the properties of ML explanations prevents us from both rigorously comparing interpretable machine learning methods and identifying what properties are needed in what contexts. In this work, we survey properties defined in interpretable machine learning papers, synthesize them based on what they actually measure, and describe the trade-offs between different formulations of these properties. In doing so, we enable more informed selection of task-appropriate formulations of explanation properties as well as standardization for future work in interpretable machine learning.

arxiv情報

著者 Zixi Chen,Varshini Subhash,Marton Havasi,Weiwei Pan,Finale Doshi-Velez
発行日 2024-07-12 15:34:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク