Thermodynamics of Interpretation

要約

過去数年間、さまざまな科学の領域で、データ駆動型の人工知能(AI)技術が予測モデルを生成するために広く採用されてきました。しかし、そのブラックボックス的な性質から、これらのモデルを正確なものとして受け入れる前に、その信頼性を確立することが極めて重要です。この目標を達成する一つの方法は、ブラックボックスモデルの予測の背後にある理由を提示することができるポストホック解釈スキームを実装することである。本研究では、この目的のために、古典熱力学に着想を得たアプローチ、すなわち、AIや他のブラックボックスパラダイムの熱力学的に説明可能な表現(TERP)を提案します。TERPは、説明されるインスタンスの周りの小さな近傍領域で、ブラックボックスモデルの挙動を近似する線形局所代理モデルを構築することで機能する。単純な前方特徴選択アルゴリズムを採用することで、TERPは解釈可能な全てのサロゲートモデルに解釈可能スコアを割り当てる。既存の手法と比較して、TERPは古典熱力学との単純な類似性を描くことにより、これらのモデルから最適な解釈を選択することで解釈可能性を向上させる。TERPが一般的に適用可能な手法であることを検証するために、ディープラーニングのオートエンコーダー、リカレントニューラルネットワーク、畳み込みニューラルネットワークなどの幅広いブラックボックスモデルアーキテクチャを分子シミュレーション、画像、テキスト分類などの異なるドメインにそれぞれ適用し、解釈の取得に使用できることを示すことに成功しています。

要約(オリジナル)

Over the past few years, different types of data-driven Artificial Intelligence (AI) techniques have been widely adopted in various domains of science for generating predictive models. However, because of their black-box nature, it is crucial to establish trust in these models before accepting them as accurate. One way of achieving this goal is through the implementation of a post-hoc interpretation scheme that can put forward the reasons behind a black-box model’s prediction. In this work, we propose a classical thermodynamics inspired approach for this purpose: Thermodynamically Explainable Representations of AI and other black-box Paradigms (TERP). TERP works by constructing a linear, local surrogate model that approximates the behaviour of the black-box model within a small neighborhood around the instance being explained. By employing a simple forward feature selection algorithm, TERP assigns an interpretability score to all the possible surrogate models. Compared to existing methods, TERP improves interpretability by selecting an optimal interpretation from these models by drawing simple parallels with classical thermodynamics. To validate TERP as a generally applicable method, we successfully demonstrate how it can be used to obtain interpretations of a wide range of black-box model architectures including deep learning Autoencoders, Recurrent neural networks and Convolutional neural networks applied to different domains including molecular simulations, image, and text classification respectively.

arxiv情報

著者 Shams Mehdi,Pratyush Tiwary
発行日 2023-03-03 15:11:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cond-mat.dis-nn, cond-mat.stat-mech, cs.LG, physics.comp-ph パーマリンク