Learning conditional distributions on continuous spaces

要約

私たちは、特徴空間とターゲット空間のさまざまな次元を考慮して、多次元ユニットボックス上の条件付き分布のサンプルベースの学習を調査します。
私たちのアプローチでは、特徴空間内のさまざまなクエリ ポイントの近くでデータをクラスタリングして、ターゲット空間内に経験的な測定値を作成します。
私たちは 2 つの異なるクラスタリング スキームを採用しています。1 つは固定半径のボールに基づくもので、もう 1 つは最近傍ボールに基づくものです。
両方の方法の収束率の上限を設定し、これらの上限から半径と近傍数の最適な構成を推定します。
私たちの経験的分析により、実際のパフォーマンスがより優れていることが示されているため、最近傍法をニューラル ネットワークのトレーニングに組み込むことを提案します。
効率性を高めるため、トレーニング プロセスでは、ランダムなバイナリ空間分割による近似最近傍検索を利用します。
さらに、Sinkhorn アルゴリズムとスパース性を強制した転送計画を採用しています。
私たちの経験的発見は、適切に設計された構造により、ニューラル ネットワークが局所的に適切なレベルのリプシッツ連続性に適応する能力を備えていることを示しています。
再現性を高めるために、コードは \url{https://github.com/zcheng-a/LCD_kNN} で入手できます。

要約(オリジナル)

We investigate sample-based learning of conditional distributions on multi-dimensional unit boxes, allowing for different dimensions of the feature and target spaces. Our approach involves clustering data near varying query points in the feature space to create empirical measures in the target space. We employ two distinct clustering schemes: one based on a fixed-radius ball and the other on nearest neighbors. We establish upper bounds for the convergence rates of both methods and, from these bounds, deduce optimal configurations for the radius and the number of neighbors. We propose to incorporate the nearest neighbors method into neural network training, as our empirical analysis indicates it has better performance in practice. For efficiency, our training process utilizes approximate nearest neighbors search with random binary space partitioning. Additionally, we employ the Sinkhorn algorithm and a sparsity-enforced transport plan. Our empirical findings demonstrate that, with a suitably designed structure, the neural network has the ability to adapt to a suitable level of Lipschitz continuity locally. For reproducibility, our code is available at \url{https://github.com/zcheng-a/LCD_kNN}.

arxiv情報

著者 Cyril Bénézet,Ziteng Cheng,Sebastian Jaimungal
発行日 2024-06-13 17:53:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, math.ST, stat.ML, stat.TH パーマリンク