要約
ランダムフォレストを使用した自動エンコードの原則的な方法を提案します。
私たちの戦略は、データの関係を最適に表すモデルの低次元の埋め込みを学習するために、ノンパラメトリック統計とスペクトルグラフ理論の基礎結果に基づいています。
制約された最適化、分割レラブリング、および最も近い隣人の回帰を介して、デコード問題に対する正確かつ近似ソリューションを提供します。
これらの方法は、圧縮パイプラインを効果的に反転させ、アンサンブルの構成樹によって学習したスプリットを使用して、埋め込みスペースから入力スペースに戻るマップを確立します。
結果のデコーダーは、一般的な規則性の仮定の下で普遍的に一貫しています。
この手順は、監視されたモデルまたは監視なしのモデルで機能し、条件付きまたは共同分布にウィンドウを提供します。
視覚化、圧縮、クラスタリング、除去のための強力な新しいツールを含む、この自動エンコーダーのさまざまなアプリケーションを実証します。
実験は、表形式、画像、ゲノムデータを含む幅広い設定での方法の容易さと有用性を示しています。
要約(オリジナル)
We propose a principled method for autoencoding with random forests. Our strategy builds on foundational results from nonparametric statistics and spectral graph theory to learn a low-dimensional embedding of the model that optimally represents relationships in the data. We provide exact and approximate solutions to the decoding problem via constrained optimization, split relabeling, and nearest neighbors regression. These methods effectively invert the compression pipeline, establishing a map from the embedding space back to the input space using splits learned by the ensemble’s constituent trees. The resulting decoders are universally consistent under common regularity assumptions. The procedure works with supervised or unsupervised models, providing a window into conditional or joint distributions. We demonstrate various applications of this autoencoder, including powerful new tools for visualization, compression, clustering, and denoising. Experiments illustrate the ease and utility of our method in a wide range of settings, including tabular, image, and genomic data.
arxiv情報
著者 | Binh Duc Vu,Jan Kapar,Marvin Wright,David S. Watson |
発行日 | 2025-05-27 17:15:02+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google