Tightness of prescriptive tree-based mixed-integer optimization formulations

要約

混合整数最適化を使用して、入力特徴ベクトルとトレーニングされた決定木の予測結果との関係をモデル化することに焦点を当てています。
これは、デシジョン ツリーまたはツリー アンサンブルが最適化問題に組み込まれ、決定の予測結果をモデル化する多くの実用的なアプリケーションで使用できます。
以前に紹介したものよりも厳密な混合整数最適化定式化を提案します。
既存の定式化は、単一の決定木をモデル化する単純なケースであっても、分数の極値を持つ線形緩和を示すことができます。
多面体アプローチの投影結合に基づいて提案する定式化は、単一の決定木に理想的です。
この定式化は通常、木のアンサンブルや追加の制約が追加された場合には理想的ではありませんが、一般的に極端な点が少ないため、特に定式化に含まれる木が比較的少ない場合は、解決時間が短縮されます。
ただし、以前の研究では、特徴ベクトルのバイナリ表現に基づく定式化が計算上うまく機能するため、実際のアプリケーションでの使用に魅力的であることが示されています。
バイナリ ベクトルを使用して既存の定式化を強化するための複数のアプローチを提示し、同じフィーチャに複数の分割がある場合に分数の極値が削除されることを示します。
極端に言えば、これが 1 次元の特徴ベクトルをモデル化するツリー アンサンブルの理想的な定式化になることを証明します。
この結果に基づいて、特徴ベクトルが低次元の場合、これらの追加の制約により、線形緩和が大幅に厳しくなることも数値シミュレーションによって示します。
また、これらの定式化を使用して、最適化までの時間が大幅に改善された例も示します。

要約(オリジナル)

We focus on modeling the relationship between an input feature vector and the predicted outcome of a trained decision tree using mixed-integer optimization. This can be used in many practical applications where a decision tree or tree ensemble is incorporated into an optimization problem to model the predicted outcomes of a decision. We propose tighter mixed-integer optimization formulations than those previously introduced. Existing formulations can be shown to have linear relaxations that have fractional extreme points, even for the simple case of modeling a single decision tree. A formulation we propose, based on a projected union of polyhedra approach, is ideal for a single decision tree. While the formulation is generally not ideal for tree ensembles or if additional constraints are added, it generally has fewer extreme points, leading to a faster time to solve, particularly if the formulation has relatively few trees. However, previous work has shown that formulations based on a binary representation of the feature vector perform well computationally and hence are attractive for use in practical applications. We present multiple approaches to tighten existing formulations with binary vectors, and show that fractional extreme points are removed when there are multiple splits on the same feature. At an extreme, we prove that this results in ideal formulations for tree ensembles modeling a one-dimensional feature vector. Building on this result, we also show via numerical simulations that these additional constraints result in significantly tighter linear relaxations when the feature vector is low dimensional. We also present instances where the time to solve to optimality is significantly improved using these formulations.

arxiv情報

著者 Max Biggs,Georgia Perakis
発行日 2023-02-28 16:44:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, math.OC パーマリンク