Why is the prediction wrong? Towards underfitting case explanation via meta-classification


この論文では、特定の分類子によって誤って予測されたデータセット (データ ポイント) 内の要素について、個別の説明を提供するヒューリスティックな方法を提示します。
まず、誤分類の 2 つの主な原因を分離することを目的として、欠陥のあるデータを手作業で作成された人間が読める中間表現 (メタ表現、プロファイル ベクトル) に投影します。
または、データ ポイントが、クラスが分離できない入力空間の領域に属しています。
次に、これらのプロファイル ベクトルの空間で、メタ分類子 (デシジョン ツリー) を当てはめ、その出力を解釈可能な (人間が読める) 説明ルールのセットとして表現する方法を提示します。これにより、いくつかのターゲット診断ラベルが得られます。
正しく分類されているか、モデルが弱すぎるために欠陥があるか、入力空間内の混合 (重複) クラスが原因で欠陥があります。
いくつかの実際のデータセットに関する実験結果は、80% を超える診断ラベル精度を示し、提案された中間表現が、入力空間で使用される分類器および分類されるデータセットに関して高度な不変性を達成できることを確認します。つまり、学習できます。
特定の分類子を持つデータセットのメタ分類子を使用して、別のデータセットまたは分類子 (またはその両方) の診断ラベルを正常に予測します。


In this paper we present a heuristic method to provide individual explanations for those elements in a dataset (data points) which are wrongly predicted by a given classifier. Since the general case is too difficult, in the present work we focus on faulty data from an underfitted model. First, we project the faulty data into a hand-crafted, and thus human readable, intermediate representation (meta-representation, profile vectors), with the aim of separating the two main causes of miss-classification: the classifier is not strong enough, or the data point belongs to an area of the input space where classes are not separable. Second, in the space of these profile vectors, we present a method to fit a meta-classifier (decision tree) and express its output as a set of interpretable (human readable) explanation rules, which leads to several target diagnosis labels: data point is either correctly classified, or faulty due to a too weak model, or faulty due to mixed (overlapped) classes in the input space. Experimental results on several real datasets show more than 80% diagnosis label accuracy and confirm that the proposed intermediate representation allows to achieve a high degree of invariance with respect to the classifier used in the input space and to the dataset being classified, i.e. we can learn the metaclassifier on a dataset with a given classifier and successfully predict diagnosis labels for a different dataset or classifier (or both).


著者 Sheng Zhou,Pierre Blanchart,Michel Crucianu,Marin Ferecatu
発行日 2023-02-20 12:40:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク