Counterfactual Explanations for k-means and Gaussian Clustering

要約

反事実は、分類子の決定を説明するための効果的なアプローチとして認識されています。
それにもかかわらず、それらはクラスタリングの文脈ではまだ考慮されていません。
この研究では、クラスタリング ソリューションを説明するために反事実の使用を提案します。
まず、妥当性と実現可能性の制約を含む、モデルベースのクラスタリングの反事実の一般的な定義を示します。
次に、ユークリッド距離を仮定した k 平均法とガウス クラスタリングの反事実生成問題を検討します。
私たちのアプローチは、事実、ターゲット クラスター、実用的または不変の特徴を示すバイナリ マスク、および反事実をクラスター境界からどれだけ遠くに配置するかを指定する妥当性係数を入力として受け取ります。
K 平均法クラスタリングの場合、最適解を計算するために分析的な数式が提示されますが、ガウス クラスタリングの場合 (完全共分散、対角共分散、または球面共分散を仮定)、私たちの方法では 1 つのパラメータのみを持つ非線形方程式の数値解が必要です。

説明的な例と定量的な実験比較を通じて、私たちのアプローチの利点を実証します。

要約(オリジナル)

Counterfactuals have been recognized as an effective approach to explain classifier decisions. Nevertheless, they have not yet been considered in the context of clustering. In this work, we propose the use of counterfactuals to explain clustering solutions. First, we present a general definition for counterfactuals for model-based clustering that includes plausibility and feasibility constraints. Then we consider the counterfactual generation problem for k-means and Gaussian clustering assuming Euclidean distance. Our approach takes as input the factual, the target cluster, a binary mask indicating actionable or immutable features and a plausibility factor specifying how far from the cluster boundary the counterfactual should be placed. In the k-means clustering case, analytical mathematical formulas are presented for computing the optimal solution, while in the Gaussian clustering case (assuming full, diagonal, or spherical covariances) our method requires the numerical solution of a nonlinear equation with a single parameter only. We demonstrate the advantages of our approach through illustrative examples and quantitative experimental comparisons.

arxiv情報

著者 Georgios Vardakas,Antonia Karra,Evaggelia Pitoura,Aristidis Likas
発行日 2025-01-17 14:56:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク