Revisiting column-generation-based matheuristic for learning classification trees

要約

デシジョン ツリーは、機械学習 (ML) における分類問題を解決するための高度に解釈可能なモデルです。
デシジョン ツリーをトレーニングするための標準の ML アルゴリズムは高速ですが、精度の点で次善のツリーを生成します。
文献にある他の離散最適化モデルは最適性の問題に対処していますが、比較的小さなデータセットでのみうまく機能します。
\cite{firat2020column} は、デシジョン ツリーを学習するための列生成ベースのヒューリスティック アプローチを提案しました。
このアプローチによりスケーラビリティが向上し、大規模なデータセットを処理できるようになります。
このペーパーでは、この列生成アプローチの改良点について説明します。
まず、部分問題モデルを変更して、マルチクラス分類インスタンス内の部分問題の数を大幅に減らします。
次に、マスター問題のデータ依存制約が暗黙的に示され、それらを切断面として使用することを示します。
さらに、線形計画緩和解が対応する制約に違反するデータ点を生成するための分離モデルについて説明します。
最後に、これらの変更によりスケーラビリティが向上することを示す計算結果を提示します。

要約(オリジナル)

Decision trees are highly interpretable models for solving classification problems in machine learning (ML). The standard ML algorithms for training decision trees are fast but generate suboptimal trees in terms of accuracy. Other discrete optimization models in the literature address the optimality problem but only work well on relatively small datasets. \cite{firat2020column} proposed a column-generation-based heuristic approach for learning decision trees. This approach improves scalability and can work with large datasets. In this paper, we describe improvements to this column generation approach. First, we modify the subproblem model to significantly reduce the number of subproblems in multiclass classification instances. Next, we show that the data-dependent constraints in the master problem are implied, and use them as cutting planes. Furthermore, we describe a separation model to generate data points for which the linear programming relaxation solution violates their corresponding constraints. We conclude by presenting computational results that show that these modifications result in better scalability.

arxiv情報

著者 Krunal Kishor Patel,Guy Desaulniers,Andrea Lodi
発行日 2023-08-22 14:43:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, math.OC パーマリンク