A new algorithm for Subgroup Set Discovery based on Information Gain

要約

パターン検出は、手動で設定したしきい値よりも高い頻度値を持つデータセット内に存在する項目、サブシーケンス、または部分構造のセットを見つけることを目的とした機械学習手法です。
このプロセスは、データ内で繰り返されるパターンや関係を特定するのに役立ち、貴重な洞察と知識の抽出を可能にします。
この研究では、パターン選択の複数基準として情報利得 (IG) とオッズ比 (OR) を組み合わせたパターン発見のための新しい SD アルゴリズムである情報獲得サブグループ発見 (IGSD) を提案します。
このアルゴリズムは、各データセットの主要パラメータの微調整の必要性、手動で設定された単一パターンの検索条件の使用、重複しないデータ構造の使用など、最先端の SD アルゴリズムのいくつかの制限に対処しようとしています。
サブグループ空間の探索、およびいくつかの関連するデータセット変数を固定することによるパターンの検索の不可能性。
したがって、IGSD のパフォーマンスを 2 つの最先端の SD アルゴリズム、FSSD および SSD++ と比較します。
これらのアルゴリズムを使用して 11 のデータセットが評価されます。
パフォーマンス評価については、IG、OR、および p 値を使用して標準的な SD 尺度を補完することも提案します。
得られた結果は、FSSD および SSD++ アルゴリズムが、考慮したすべてのデータセットに対して IGSD アルゴリズムよりも信頼性の低いパターンとパターンのセットを削減することを示しています。
さらに、IGSD は FSSD や SSD++ よりも優れた OR 値を提供し、パターンとターゲット間の依存性が高いことを示しています。
さらに、使用されたデータセットの 1 つについて取得されたパターンは、ドメイン専門家のグループによって検証されています。
したがって、IGSD によって提供されたパターンは、FSSD および SSD++ アルゴリズムによって取得されたパターンよりも専門家との一致が良好です。
これらの結果は、パターン発見の方法として IGSD が適切であることを実証し、非標準の SD メトリクスを含めることで発見されたパターンをより適切に評価できることを示唆しています。

要約(オリジナル)

Pattern discovery is a machine learning technique that aims to find sets of items, subsequences, or substructures that are present in a dataset with a higher frequency value than a manually set threshold. This process helps to identify recurring patterns or relationships within the data, allowing for valuable insights and knowledge extraction. In this work, we propose Information Gained Subgroup Discovery (IGSD), a new SD algorithm for pattern discovery that combines Information Gain (IG) and Odds Ratio (OR) as a multi-criteria for pattern selection. The algorithm tries to tackle some limitations of state-of-the-art SD algorithms like the need for fine-tuning of key parameters for each dataset, usage of a single pattern search criteria set by hand, usage of non-overlapping data structures for subgroup space exploration, and the impossibility to search for patterns by fixing some relevant dataset variables. Thus, we compare the performance of IGSD with two state-of-the-art SD algorithms: FSSD and SSD++. Eleven datasets are assessed using these algorithms. For the performance evaluation, we also propose to complement standard SD measures with IG, OR, and p-value. Obtained results show that FSSD and SSD++ algorithms provide less reliable patterns and reduced sets of patterns than IGSD algorithm for all datasets considered. Additionally, IGSD provides better OR values than FSSD and SSD++, stating a higher dependence between patterns and targets. Moreover, patterns obtained for one of the datasets used, have been validated by a group of domain experts. Thus, patterns provided by IGSD show better agreement with experts than patterns obtained by FSSD and SSD++ algorithms. These results demonstrate the suitability of the IGSD as a method for pattern discovery and suggest that the inclusion of non-standard SD metrics allows to better evaluate discovered patterns.

arxiv情報

著者 Daniel Gómez-Bravo,Aaron García,Guillermo Vigueras,Belén Ríos,Alejandro Rodríguez-González
発行日 2023-07-31 08:26:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク