Optimal Decision Trees For Interpretable Clustering with Constraints (Extended Version)

要約

制約付きクラスタリングは、ドメイン固有の知識を組み込み、クラスタリングの精度を大幅に向上させるために、制約として定式化された限られた量のラベル付きデータを使用する半教師ありタスクです。
これまでの研究では、すべての制約を満たしながら最適なクラスタリングを保証できる正確な最適化定式化が検討されてきましたが、これらのアプローチには解釈可能性が欠けています。
最近、本質的に解釈可能なクラスタリング ソリューションを生成するためにディシジョン ツリーが使用されていますが、既存のアプローチではクラスタリングの制約がサポートされておらず、ソリューションの品質について理論的に強力な保証が提供されていません。
この研究では、クラスタリングの制約をサポートし、ソリューションの品質に対する強力な理論的保証も提供する、解釈可能なクラスタリングのための新しい SAT ベースのフレームワークを紹介します。
また、解釈可能性とそのようなユーザー提供の制約を満たすこととの間のトレードオフについての新しい洞察も提供します。
私たちのフレームワークは、解釈可能で制約のあるクラスタリングのための最初のアプローチです。
さまざまな現実世界および合成データセットを使用した実験により、私たちのアプローチが高品質で解釈可能な制約付きクラスタリング ソリューションを生成できることが実証されました。

要約(オリジナル)

Constrained clustering is a semi-supervised task that employs a limited amount of labelled data, formulated as constraints, to incorporate domain-specific knowledge and to significantly improve clustering accuracy. Previous work has considered exact optimization formulations that can guarantee optimal clustering while satisfying all constraints, however these approaches lack interpretability. Recently, decision-trees have been used to produce inherently interpretable clustering solutions, however existing approaches do not support clustering constraints and do not provide strong theoretical guarantees on solution quality. In this work, we present a novel SAT-based framework for interpretable clustering that supports clustering constraints and that also provides strong theoretical guarantees on solution quality. We also present new insight into the trade-off between interpretability and satisfaction of such user-provided constraints. Our framework is the first approach for interpretable and constrained clustering. Experiments with a range of real-world and synthetic datasets demonstrate that our approach can produce high-quality and interpretable constrained clustering solutions.

arxiv情報

著者 Pouya Shati,Eldan Cohen,Sheila McIlraith
発行日 2023-05-16 14:24:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク