Obtaining Explainable Classification Models using Distributionally Robust Optimization

要約

モデルの説明可能性は、提案された分類器がその特徴値に基づいてどのようにデータにラベルを割り当てるかを人間のユーザが解釈できるようにするために極めて重要である。我々は、非線形な依存関係や相互作用を捉えることができる、特徴値ルールの集合を用いて構築される一般化線形モデルを研究している。ルールセットのスパース性と予測精度との間には、本質的なトレードオフが存在する。既存の手法では、スパース性の適切な選択を見つけるのに、例えばクロスバリデーションによって計算コストがかかる。我々は、これらの競合要因に同時に対処するルールセットのアンサンブルを学習する新しい定式化を提案する。分布的にロバストな最適化を利用することで、計算コストを抑えつつ、良好な汎化を保証する。この定式化は、ルールセットの空間を効率的に探索するために列生成を利用し、ランダムフォレストやブースティングやその亜種のような手法とは対照的に、ルールセットの疎なアンサンブルを構築する。本論文では、分布に頑健な定式化の動機付けと正当性を示す理論的結果を示す。広範な数値実験により、公開されている大規模な二値分類問題インスタンスにおいて、我々の手法が、汎化の質、計算コスト、説明可能性のうち1つ以上の指標に関して、競合する手法よりも改善されることを立証する。

要約(オリジナル)

Model explainability is crucial for human users to be able to interpret how a proposed classifier assigns labels to data based on its feature values. We study generalized linear models constructed using sets of feature value rules, which can capture nonlinear dependencies and interactions. An inherent trade-off exists between rule set sparsity and its prediction accuracy. It is computationally expensive to find the right choice of sparsity — e.g., via cross-validation — with existing methods. We propose a new formulation to learn an ensemble of rule sets that simultaneously addresses these competing factors. Good generalization is ensured while keeping computational costs low by utilizing distributionally robust optimization. The formulation utilizes column generation to efficiently search the space of rule sets and constructs a sparse ensemble of rule sets, in contrast with techniques like random forests or boosting and their variants. We present theoretical results that motivate and justify the use of our distributionally robust formulation. Extensive numerical experiments establish that our method improves over competing methods — on a large set of publicly available binary classification problem instances — with respect to one or more of the following metrics: generalization quality, computational cost, and explainability.

arxiv情報

著者 Sanjeeb Dash,Soumyadip Ghosh,Joao Goncalves,Mark S. Squillante
発行日 2023-11-03 15:45:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.LG, math.OC, stat.ML パーマリンク