$Des$-$q$: a quantum algorithm to construct and efficiently retrain decision trees for regression and binary classification

要約

デシジョン ツリーは、構築が簡単で解釈しやすいため、機械学習で広く使用されています。
ただし、データ サイズが大きくなるにつれて、デシジョン ツリーを構築および再トレーニングする従来の方法はますます遅くなり、トレーニング サンプルの数に応じて多項式に拡張されます。
この研究では、回帰および二項分類タスクで決定木を構築および再学習するための、$Des$-$q$ という名前の新しい量子アルゴリズムを導入します。
データ ストリームが新しいトレーニング サンプルの小さな増分を生成すると仮定すると、$Des$-$q$ アルゴリズムがツリーの再トレーニングに必要な時間を大幅に短縮し、トレーニング サンプルの数で多対数の時間計算量を達成し、
新しいサンプルを量子アクセス可能なメモリにロードするのに必要な時間。
私たちのアプローチには、各内部ノードで k 区分線形ツリー分割を実行する決定木アルゴリズムを構築することが含まれます。
これらの分割により複数の超平面が同時に生成され、特徴空間が k 個の異なる領域に分割されます。
これらの分割に適した k 個のアンカー ポイントを決定するために、Kerenidis $et$ $al$ の q-means アルゴリズムに基づいて、効率的な量子教師ありクラスタリング手法を開発します。
$Des$-$q$ は、まず新しい量子技術を使用して各特徴の重みを効率的に推定し、ピアソン相関を推定します。
続いて、加重距離推定を使用してトレーニング サンプルを k 個の互いに素な領域にクラスタリングし、同じ手順を使用してツリーの拡張を続けます。
数値特徴を持つ複数のデータセットに対する回帰およびバイナリ分類のための最先端の古典的な決定木に対して、アルゴリズムのシミュレートされたバージョンのパフォーマンスをベンチマークします。
さらに、提案されたアルゴリズムが、定期的なツリーの再トレーニングを大幅に高速化しながら、最先端のデシジョン ツリーと同様のパフォーマンスを示すことを示します。

要約(オリジナル)

Decision trees are widely used in machine learning due to their simplicity in construction and interpretability. However, as data sizes grow, traditional methods for construction and retraining decision trees become increasingly slow, scaling polynomially with the number of training examples. In this work, we introduce a novel quantum algorithm, named $Des$-$q$, for constructing and retraining decision trees in regression and binary classification tasks. Assuming the data stream produces small increments of new training examples, we demonstrate that our $Des$-$q$ algorithm significantly reduces the time required for tree retraining, achieving a poly-logarithmic time complexity in the number of training examples, even accounting for the time needed to load the new examples into quantum-accessible memory. Our approach involves building a decision tree algorithm to perform k-piecewise linear tree splits at each internal node. These splits simultaneously generate multiple hyperplanes, dividing the feature space into k distinct regions. To determine the k suitable anchor points for these splits, we develop an efficient quantum-supervised clustering method, building upon the q-means algorithm of Kerenidis $et$ $al$. $Des$-$q$ first efficiently estimates each feature weight using a novel quantum technique to estimate the Pearson correlation. Subsequently, we employ weighted distance estimation to cluster the training examples in k disjoint regions and then proceed to expand the tree using the same procedure. We benchmark the performance of the simulated version of our algorithm against the state-of-the-art classical decision tree for regression and binary classification on multiple data sets with numerical features. Further, we showcase that the proposed algorithm exhibits similar performance to the state-of-the-art decision tree while significantly speeding up the periodic tree retraining.

arxiv情報

著者 Niraj Kumar,Romina Yalovetzky,Changhao Li,Pierre Minnsen,Marco Pistoia
発行日 2023-09-18 17:56:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, quant-ph パーマリンク