Distributing Synergy Functions: Unifying Game-Theoretic Interaction Methods for Machine-Learning Explainability

要約

ディープラーニングは、コンピュータービジョンから自然言語処理に至るまで、機械学習の多くの分野に革命をもたらしましたが、これらの高性能モデルは一般に「ブラックボックス」です。
このようなモデルを説明することは、AI を活用した意思決定における透明性と信頼性を向上させるでしょう。また、堅牢性や公平性などの他の実際的なニーズを理解するためにも必要です。
モデルの透明性を高める一般的な手段は、個々の入力がモデルの出力 (属性と呼ばれる) にどのように寄与するか、および入力グループ間の相互作用の大きさを定量化することです。
ゲーム理論から概念と結果をインポートして、帰属と相互作用を生成するこれらの手法が増えています。
この研究は、ゲーム理論にインスピレーションを得たアトリビューションと $k^\text{th}$-order インタラクション手法のための統一フレームワークを提示します。
控えめな仮定を前提として、相乗効果と呼ばれる特徴間の相互作用を独自に完全に説明することが連続入力設定で可能であることを示します。
私たちは、さまざまな手法が相乗効果を分配するポリシーによってどのように特徴付けられているかを特定します。
また、勾配ベースの手法が相乗関数の一種である単項式に対する作用によって特徴づけられることを示し、独自の勾配ベースの手法を紹介します。
さまざまな基準の組み合わせによってアトリビューション/インタラクション方法が一意に定義されることを示します。
したがって、コミュニティは、アトリビューションとインタラクションの方法を開発および採用する際に、目標とコンテキストを特定する必要があります。

要約(オリジナル)

Deep learning has revolutionized many areas of machine learning, from computer vision to natural language processing, but these high-performance models are generally ‘black box.’ Explaining such models would improve transparency and trust in AI-powered decision making and is necessary for understanding other practical needs such as robustness and fairness. A popular means of enhancing model transparency is to quantify how individual inputs contribute to model outputs (called attributions) and the magnitude of interactions between groups of inputs. A growing number of these methods import concepts and results from game theory to produce attributions and interactions. This work presents a unifying framework for game-theory-inspired attribution and $k^\text{th}$-order interaction methods. We show that, given modest assumptions, a unique full account of interactions between features, called synergies, is possible in the continuous input setting. We identify how various methods are characterized by their policy of distributing synergies. We also demonstrate that gradient-based methods are characterized by their actions on monomials, a type of synergy function, and introduce unique gradient-based methods. We show that the combination of various criteria uniquely defines the attribution/interaction methods. Thus, the community needs to identify goals and contexts when developing and employing attribution and interaction methods.

arxiv情報

著者 Daniel Lundstrom,Meisam Razaviyayn
発行日 2023-05-17 17:21:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.GT, cs.LG パーマリンク