Using Constraints to Discover Sparse and Alternative Subgroup Descriptions

要約

サブグループの発見方法により、ユーザーはデータセット内の興味深い領域の簡単な説明を取得できます。
サブグループの発見で制約を使用すると、解釈性がさらに向上する可能性があります。
この記事では、2つのタイプの制約に焦点を当てます。まず、サブグループの説明で使用される機能の数を制限し、後者をまばらにします。
第二に、特定のサブグループとして同様のデータオブジェクトをカバーするが、異なる機能を使用する代替サブグループの説明を見つけるという新しい最適化の問題を提案します。
両方の制約タイプをヒューリスティックなサブグループの発見方法に統合する方法について説明します。
さらに、ホワイトボックスの最適化問題としてのサブグループ発見の新しい満足度モジュロ理論(SMT)の定式化を提案します。
さらに、両方の制約タイプがNPハード最適化問題につながることを証明します。
最後に、27のバイナリ分類データセットを使用して、制約のないサブグループの発見のためのアルゴリズムとソルバーベースの検索を比較します。
ヒューリスティック検索方法は、制約のあるシナリオでも、短い実行時間内に高品質のサブグループを生成することが多いことを観察します。

要約(オリジナル)

Subgroup-discovery methods allow users to obtain simple descriptions of interesting regions in a dataset. Using constraints in subgroup discovery can enhance interpretability even further. In this article, we focus on two types of constraints: First, we limit the number of features used in subgroup descriptions, making the latter sparse. Second, we propose the novel optimization problem of finding alternative subgroup descriptions, which cover a similar set of data objects as a given subgroup but use different features. We describe how to integrate both constraint types into heuristic subgroup-discovery methods. Further, we propose a novel Satisfiability Modulo Theories (SMT) formulation of subgroup discovery as a white-box optimization problem, which allows solver-based search for subgroups and is open to a variety of constraint types. Additionally, we prove that both constraint types lead to an NP-hard optimization problem. Finally, we employ 27 binary-classification datasets to compare algorithmic and solver-based search for unconstrained and constrained subgroup discovery. We observe that heuristic search methods often yield high-quality subgroups within a short runtime, also in scenarios with constraints.

arxiv情報

著者 Jakob Bach
発行日 2025-02-19 16:25:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク