(Un)reasonable Allure of Ante-hoc Interpretability for High-stakes Domains: Transparency Is Necessary but Insufficient for Comprehensibility

要約

事前の解釈可能性は、ヘルスケアなどの一か八かの分野における説明可能な人工知能の聖杯となっています。
ただし、この概念はとらえどころがなく、広く受け入れられている定義がなく、運用状況に依存します。
これは、その構造がドメイン固有の制約に従う予測モデル、または本質的に透過的な予測モデルを指す場合があります。
後者の概念化は、この品質を判断する観察者を前提としていますが、前者は、観察者が技術的および分野の専門知識を持っていることを前提としています(したがって、他の被説明者のグループを疎外します)。
さらに、透明な予測モデルが適切な説明的洞察を得るために依然として(後)処理を必要とする可能性があることを考慮すると、事前の解釈可能性と、別個の説明モデルを構築する方法を指すあまり望ましくない事後の説明可能性との区別は曖昧です。
このように、事前の解釈可能性は、さまざまな暗黙的プロパティで構成されるオーバーロードされた概念であり、危険な領域全体で安全に採用するために何が必要かをよりよく理解するために、このホワイトペーパーでそれを紐解いていきます。
この目的のために、想定されるアプリケーションと対象者を考慮して、その明確な実現をナビゲートできるようにするためのモデリングと説明の概要を説明します。

要約(オリジナル)

Ante-hoc interpretability has become the holy grail of explainable artificial intelligence for high-stakes domains such as healthcare; however, this notion is elusive, lacks a widely-accepted definition and depends on the operational context. It can refer to predictive models whose structure adheres to domain-specific constraints, or ones that are inherently transparent. The latter conceptualisation assumes observers who judge this quality, whereas the former presupposes them to have technical and domain expertise (thus alienating other groups of explainees). Additionally, the distinction between ante-hoc interpretability and the less desirable post-hoc explainability, which refers to methods that construct a separate explanatory model, is vague given that transparent predictive models may still require (post-)processing to yield suitable explanatory insights. Ante-hoc interpretability is thus an overloaded concept that comprises a range of implicit properties, which we unpack in this paper to better understand what is needed for its safe adoption across high-stakes domains. To this end, we outline modelling and explaining desiderata that allow us to navigate its distinct realisations in view of the envisaged application and audience.

arxiv情報

著者 Kacper Sokol,Julia E. Vogt
発行日 2023-07-10 13:42:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク