要約
いくつかのルール学習アルゴリズムで必要とされる数値属性の事前離散化は、非効率の原因である。本論文では、離散化で失われた情報を回復することを目的とした新しいルールチューニングステップと、ルールモデルのサイズをさらに縮小し、その精度を向上させる可能性のある新しい刈り込み技術について説明する。提案するQCBA手法は、当初、Classification based on associations(CBA)アルゴリズムによって生成されたモデルの定量的属性を後処理するために開発されたが、他のルール学習アプローチの結果にも適用することが可能である。5つのアソシエーションルール分類アルゴリズム(CBA、CMAR、CPAR、IDS、SBRL)と2つの一次論理ルール学習器(FOIL2、PRM)によって生成されたモデルの後処理について、その有効性を実証する。UCIリポジトリからの22のデータセットを用いたベンチマークでは、7つのベースラインと比較して、FOIL2+QCBAの方がサイズが小さく、全体的に最高の予測性能を示した。最適化後のCBAモデルは、このベンチマークにおいて、最先端のルール学習器CORELSと比較して、より優れた予測性能を有している。本論文では、個々の後処理ステップのアブレーションスタディと、KDD’99 Anomaly detectionデータセットでのスケーラビリティ分析が含まれている。
要約(オリジナル)
A prediscretisation of numerical attributes which is required by some rule learning algorithms is a source of inefficiencies. This paper describes new rule tuning steps that aim to recover lost information in the discretisation and new pruning techniques that may further reduce the size of rule models and improve their accuracy. The proposed QCBA method was initially developed to postprocess quantitative attributes in models generated by the Classification based on associations (CBA) algorithm, but it can also be applied to the results of other rule learning approaches. We demonstrate the effectiveness on the postprocessing of models generated by five association rule classification algorithms (CBA, CMAR, CPAR, IDS, SBRL) and two first-order logic rule learners (FOIL2 and PRM). Benchmarks on 22 datasets from the UCI repository show smaller size and the overall best predictive performance for FOIL2+QCBA compared to all seven baselines. Postoptimised CBA models have a better predictive performance compared to the state-of-the-art rule learner CORELS in this benchmark. The article contains an ablation study for the individual postprocessing steps and a scalability analysis on the KDD’99 Anomaly detection dataset.
arxiv情報
著者 | Tomas Kliegr,Ebroul Izquierdo |
発行日 | 2023-06-02 13:31:59+00:00 |
arxivサイト | arxiv_id(pdf) |