Optimal Sparse Regression Trees



– 回帰木は、AIモデルの最も古い形の1つであり、計算機を使わずに予測が可能なため、高いリスクアプリケーションに特に広く使われています。
– 回帰木に関する多くの文献の中で、完全な証明可能最適化に向けた努力は少なく、主に問題の計算的な困難性のためです。
– 本研究では、下限とともに動的プログラミングに基づくアプローチを提案し、証明可能最適なスパース回帰木を構築しました。
– ラベルの集合に対する1次元k-Meansクラスタリングアルゴリズムの最適解に基づく新しい下限を利用しています。
– 大量のサンプルや高度に相関する特徴を含む困難なデータセットでも、しばしば最適なスパース木を数秒で見つけることができます。


Regression trees are one of the oldest forms of AI models, and their predictions can be made without a calculator, which makes them broadly useful, particularly for high-stakes applications. Within the large literature on regression trees, there has been little effort towards full provable optimization, mainly due to the computational hardness of the problem. This work proposes a dynamic-programming-with-bounds approach to the construction of provably-optimal sparse regression trees. We leverage a novel lower bound based on an optimal solution to the k-Means clustering algorithm in 1-dimension over the set of labels. We are often able to find optimal sparse trees in seconds, even for challenging datasets that involve large numbers of samples and highly-correlated features.


著者 Rui Zhang,Rui Xin,Margo Seltzer,Cynthia Rudin
発行日 2023-04-10 01:21:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.LG パーマリンク