要約
多変量決定木は、分類や回帰のための強力な機械学習ツールであり、多くの研究者や業界の専門家を魅了している。最適な2分木は、(i)ちょうど2つの子を持ち、データポイントが離散的特徴のセットで評価される分岐頂点と、(ii)データポイントに予測を与える葉頂点の2種類の頂点を持ち、(i)正しく分類されたデータポイントの数を最大化し、(ii)分岐頂点の数を最小化することを求める多目的最適化問題を解くことで得られる。分岐頂点は訓練特徴の線形結合であるため、超平面と考えることができる。本論文では、最適な二値分類木(葉の頂点は離散クラスを割り当てる)を設計するための、2つのカットに基づく混合整数線形最適化(MILO)定式化を提案する。我々のモデルは、最小実行不可能部分系(MIS)のその場での同定を活用し、そこからパッキング制約の形を保持する切断平面を導出する。現在文献にある最も強力なフローベースのMILO定式化に対する理論的な改良を示し、一般に利用可能なデータセットで実験を行い、我々のモデルのスケール能力、伝統的な分枝と境界アプローチに対する強さ、サンプル外のテスト性能における頑健性を示す。我々のコードとデータはGitHubで公開されている。
要約(オリジナル)
Multivariate decision trees are powerful machine learning tools for classification and regression that attract many researchers and industry professionals. An optimal binary tree has two types of vertices, (i) branching vertices which have exactly two children and where datapoints are assessed on a set of discrete features and (ii) leaf vertices at which datapoints are given a prediction, and can be obtained by solving a biobjective optimization problem that seeks to (i) maximize the number of correctly classified datapoints and (ii) minimize the number of branching vertices. Branching vertices are linear combinations of training features and therefore can be thought of as hyperplanes. In this paper, we propose two cut-based mixed integer linear optimization (MILO) formulations for designing optimal binary classification trees (leaf vertices assign discrete classes). Our models leverage on-the-fly identification of minimal infeasible subsystems (MISs) from which we derive cutting planes that hold the form of packing constraints. We show theoretical improvements on the strongest flow-based MILO formulation currently in the literature and conduct experiments on publicly available datasets to show our models’ ability to scale, strength against traditional branch and bound approaches, and robustness in out-of-sample test performance. Our code and data are available on GitHub.
arxiv情報
著者 | Brandon Alston,Illya V. Hicks |
発行日 | 2024-08-02 14:37:28+00:00 |
arxivサイト | arxiv_id(pdf) |