On the Error-Propagation of Inexact Deflation for Principal Component Analysis

要約

主成分分析 (PCA) は、データ分析において、特にデータが高次元の場合によく使用されるツールです。
PCA は、データセット内の分散を最もよく説明する、いわゆる \textit{主成分} によって広がる部分空間を見つけることを目的としています。
デフレーション法は、そのような部分空間を発見するために使用される一般的なメタ アルゴリズムであり、最も重要な主成分から始めて、重要性の低い主成分に向かって順に個々の主成分を見つけます。
しかし、その逐次的な性質により、主成分を正確に推定しないことによって導入される数値誤差(たとえば、このプロセスによる数値近似によって)は、デフレが進行するにつれて伝播します。
私たちの知る限り、これは不正確なデフレーション法の誤差伝播を数学的に特徴づけた最初の研究であり、これがこの論文の重要な貢献です。
主要な 2 つの結果が得られます。先行固有ベクトルを見つけるためのサブルーチンがジェネリックである場合の $i)$ と、サブルーチンとしてべき乗反復が使用される場合の $ii)$ です。
後者の場合、べき乗反復からの追加の方向情報により、サブルーチンに依存しないケースの分析よりも厳しい誤差限界を取得することができます。
その結果、誤差がどのように進行し、この基本的な問題に対する後続の主成分の推定に影響を与えるかについての明示的な特徴付けが提供されます。

要約(オリジナル)

Principal Component Analysis (PCA) is a popular tool in data analysis, especially when the data is high-dimensional. PCA aims to find subspaces, spanned by the so-called \textit{principal components}, that best explain the variance in the dataset. The deflation method is a popular meta-algorithm — used to discover such subspaces — that sequentially finds individual principal components, starting from the most important one and working its way towards the less important ones. However, due to its sequential nature, the numerical error introduced by not estimating principal components exactly — e.g., due to numerical approximations through this process — propagates, as deflation proceeds. To the best of our knowledge, this is the first work that mathematically characterizes the error propagation of the inexact deflation method, and this is the key contribution of this paper. We provide two main results: $i)$ when the sub-routine for finding the leading eigenvector is generic, and $ii)$ when power iteration is used as the sub-routine. In the latter case, the additional directional information from power iteration allows us to obtain a tighter error bound than the analysis of the sub-routine agnostic case. As an outcome, we provide explicit characterization on how the error progresses and affects subsequent principal component estimations for this fundamental problem.

arxiv情報

著者 Fangshuo Liao,Junhyung Lyle Kim,Cruz Barnum,Anastasios Kyrillidis
発行日 2023-10-06 14:33:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, math.OC, stat.ML パーマリンク