Contrastive Moments: Unsupervised Halfspace Learning in Polynomial Time

要約

アンビエント分布が(未知の)対称関数の$d$倍積の未知のアフィン変換である場合に、必要なTV距離内まで$d$次元空間のマージンを持つ高次元半空間を学習するための多項式時間アルゴリズムを提供します。
1 次元の対数凹分布であり、半空間は成分分布の 1 つのデータの少なくとも $\epsilon$ 部分を削除することによって導入されます。
特に、私たちのアルゴリズムはラベルを必要とせず、この分布の仮定の下で隠れたハーフスペースの一意の(そして効率的な)識別可能性を確立します。
アルゴリズムのサンプルと時間計算量は、次元と $1/\epsilon$ の多項式です。
このアルゴリズムは、経験的分布の適切な再重み付けの最初の 2 つのモーメントのみを使用します。これを対照的モーメントと呼びます。
その分析は、一般化ディリクレ多項式に関する古典的な事実を使用し、対数凹分布の切り捨てのモーメント比の新しい単調性特性に大きく依存しています。
このようなアルゴリズムは、1 番目と 2 番目のモーメントのみに基づいており、以前の研究で提案されていましたが、これまで厳密な保証が得られていませんでした。
以前の研究では、基礎となる分布が非ガウス成分分析によってガウス分布である場合の特殊なケースに対処しました。
私たちは、超多項式となる可能性のある既存のモーメント制限保証の代わりに、トータル バリエーション (TV) 距離に基づくポリタイム保証を提供することで、これを改善しました。
私たちの研究は、この設定でガウス分布を超える最初の作品でもあります。

要約(オリジナル)

We give a polynomial-time algorithm for learning high-dimensional halfspaces with margins in $d$-dimensional space to within desired TV distance when the ambient distribution is an unknown affine transformation of the $d$-fold product of an (unknown) symmetric one-dimensional logconcave distribution, and the halfspace is introduced by deleting at least an $\epsilon$ fraction of the data in one of the component distributions. Notably, our algorithm does not need labels and establishes the unique (and efficient) identifiability of the hidden halfspace under this distributional assumption. The sample and time complexity of the algorithm are polynomial in the dimension and $1/\epsilon$. The algorithm uses only the first two moments of suitable re-weightings of the empirical distribution, which we call contrastive moments; its analysis uses classical facts about generalized Dirichlet polynomials and relies crucially on a new monotonicity property of the moment ratio of truncations of logconcave distributions. Such algorithms, based only on first and second moments were suggested in earlier work, but hitherto eluded rigorous guarantees. Prior work addressed the special case when the underlying distribution is Gaussian via Non-Gaussian Component Analysis. We improve on this by providing polytime guarantees based on Total Variation (TV) distance, in place of existing moment-bound guarantees that can be super-polynomial. Our work is also the first to go beyond Gaussians in this setting.

arxiv情報

著者 Xinyuan Cao,Santosh S. Vempala
発行日 2023-11-02 17:51:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, math.PR, stat.ML パーマリンク