Learning Interpretable Characteristic Kernels via Decision Forests

要約

デシジョン フォレストは、分類および回帰タスクに広く使用されています。
ツリーベースの方法のあまり知られていない特性は、ツリーから近接行列を構築でき、これらの近接行列が誘導カーネルであることです。
カーネルの用途と特性については広範な研究が行われていますが、デシジョン フォレストによって引き起こされるカーネルについての研究は比較的少ないです。
カーネル平均埋め込みランダム フォレスト (KMERF) を構築します。これは、リーフノードの近接性を使用して、ランダム ツリーおよび/またはフォレストからカーネルを誘導します。
漸近特性カーネルの概念を導入し、KMERF カーネルが離散データと連続データの両方に対して漸近特性があることを証明します。
KMERF はデータ適応性があるため、有限サンプル データに対してアプリオリに選択されたカーネルよりも優れたパフォーマンスを発揮するのではないかと考えました。
KMERF が、さまざまな高次元 2 サンプルおよび独立性テスト設定全体にわたって、現在の最先端のカーネルベースのテストをほぼ支配していることを示します。
さらに、当社のフォレストベースのアプローチは解釈可能であり、他の高次元ノンパラメトリック テスト手順とは異なり、重要な次元を容易に区別する機能重要度メトリックを提供します。
したがって、この研究は、意思決定フォレストベースのカーネルが既存の方法よりも強力で解釈しやすく、2 つの間のトレードオフに関する従来の通念を無視できることを示しています。

要約(オリジナル)

Decision forests are widely used for classification and regression tasks. A lesser known property of tree-based methods is that one can construct a proximity matrix from the tree(s), and these proximity matrices are induced kernels. While there has been extensive research on the applications and properties of kernels, there is relatively little research on kernels induced by decision forests. We construct Kernel Mean Embedding Random Forests (KMERF), which induce kernels from random trees and/or forests using leaf-node proximity. We introduce the notion of an asymptotically characteristic kernel, and prove that KMERF kernels are asymptotically characteristic for both discrete and continuous data. Because KMERF is data-adaptive, we suspected it would outperform kernels selected a priori on finite sample data. We illustrate that KMERF nearly dominates current state-of-the-art kernel-based tests across a diverse range of high-dimensional two-sample and independence testing settings. Furthermore, our forest-based approach is interpretable, and provides feature importance metrics that readily distinguish important dimensions, unlike other high-dimensional non-parametric testing procedures. Hence, this work demonstrates the decision forest-based kernel can be more powerful and more interpretable than existing methods, flying in the face of conventional wisdom of the trade-off between the two.

arxiv情報

著者 Sambit Panda,Cencheng Shen,Joshua T. Vogelstein
発行日 2023-09-28 17:47:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML パーマリンク