Guessing Efficiently for Constrained Subspace Approximation

要約

この論文では、制約された部分空間近似問題を研究します。
$ n $ポイントのセット$ \ {a_1、\ ldots、a_n \} $ in $ \ mathbb {r}^d $、{\ emサブスペース近似}問題の目標は、入力点に最も近い$ k $寸法サブスペースを見つけることです。
より正確には、指定された$ p \ geq 1 $について、エラーベクトル$(\ | a_1- \ bm {p} a_1 \ |、\ ldots、\ | a_n- \ bm {p} a_n \ |)$ \ bm {p} $ \ bm {p} $ \ bm {p}の$ \ bector $(\ | a_1- \ bm {p} a_1 \ |の$ p $の電力を最小限に抑えることを目指しています。
部分空間にマトリックスがあり、規範はユークリッドです。
\ emph {constrained}サブスペース近似(CSA)では、さらに投影行列$ \ bm {p} $に制約があります。
最も一般的な形式では、明示的または暗黙的に記述される特定のサブセット$ \ mathcal {s} $に属する$ \ bm {p} $が必要です。
制約された部分空間近似の一般的なフレームワークを紹介します。
私たちのアプローチは、Coreset-Guess-solveと呼ばれるというアプローチで、さまざまな制約の$(1+ \ varepsilon)$ -Multiplicativeまたは$ \ varepsilon $ additive近似のいずれかを生成します。
{\ it Fair}サブスペース近似、$ k $ -meansクラスタリング、および投影された非陰性マトリックス因数分解などを使用して、パーティション制約のサブスペース近似の新しいアルゴリズムを提供することを示します。
具体的には、ユークリッドスペースで$ k $ -meansクラスタリングの最もよく知られている境界を再構築しますが、残りの問題の既知の結果を改善します。

要約(オリジナル)

In this paper we study constrained subspace approximation problem. Given a set of $n$ points $\{a_1,\ldots,a_n\}$ in $\mathbb{R}^d$, the goal of the {\em subspace approximation} problem is to find a $k$ dimensional subspace that best approximates the input points. More precisely, for a given $p\geq 1$, we aim to minimize the $p$th power of the $\ell_p$ norm of the error vector $(\|a_1-\bm{P}a_1\|,\ldots,\|a_n-\bm{P}a_n\|)$, where $\bm{P}$ denotes the projection matrix onto the subspace and the norms are Euclidean. In \emph{constrained} subspace approximation (CSA), we additionally have constraints on the projection matrix $\bm{P}$. In its most general form, we require $\bm{P}$ to belong to a given subset $\mathcal{S}$ that is described explicitly or implicitly. We introduce a general framework for constrained subspace approximation. Our approach, that we term coreset-guess-solve, yields either $(1+\varepsilon)$-multiplicative or $\varepsilon$-additive approximations for a variety of constraints. We show that it provides new algorithms for partition-constrained subspace approximation with applications to {\it fair} subspace approximation, $k$-means clustering, and projected non-negative matrix factorization, among others. Specifically, while we reconstruct the best known bounds for $k$-means clustering in Euclidean spaces, we improve the known results for the remainder of the problems.

arxiv情報

著者 Aditya Bhaskara,Sepideh Mahabadi,Madhusudhan Reddy Pittu,Ali Vakilian,David P. Woodruff
発行日 2025-04-29 15:56:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.DS, cs.LG パーマリンク