On the Error-Propagation of Inexact Hotelling’s Deflation for Principal Component Analysis

要約

主成分分析 (PCA) は、データセット内の分散を最もよく表す、いわゆる主成分によって構成される部分空間を見つけることを目的としています。
デフレーション法は、最も重要なものから始めて、重要性の低いものに向かって、個々の主成分を順番に見つける、一般的なメタアルゴリズムです。
ただし、デフレが進行するにつれて、主成分の不正確な推定による数値誤差が、逐次的な性質により伝播します。
この論文は、不正確なホテリングのデフレーション法の誤差伝播を数学的に特徴付けます。
2 つのシナリオを考えます。$i)$ は、先頭の固有ベクトルを見つけるためのサブルーチンが抽象的であり、さまざまなアルゴリズムを表すことができる場合です。
$ii)$ は、べき乗反復がサブルーチンとして使用される場合です。
後者の場合、べき乗反復からの追加の方向情報により、サブルーチンに依存しない場合よりも厳しい誤差境界を取得できます。
どちらのシナリオでも、誤差がどのように進行し、その後の主成分の推定に影響を与えるかを明示的に特徴付けます。

要約(オリジナル)

Principal Component Analysis (PCA) aims to find subspaces spanned by the so-called principal components that best represent the variance in the dataset. The deflation method is a popular meta-algorithm that sequentially finds individual principal components, starting from the most important ones and working towards the less important ones. However, as deflation proceeds, numerical errors from the imprecise estimation of principal components propagate due to its sequential nature. This paper mathematically characterizes the error propagation of the inexact Hotelling’s deflation method. We consider two scenarios: $i)$ when the sub-routine for finding the leading eigenvector is abstract and can represent various algorithms; and $ii)$ when power iteration is used as the sub-routine. In the latter case, the additional directional information from power iteration allows us to obtain a tighter error bound than the sub-routine agnostic case. For both scenarios, we explicitly characterize how the errors progress and affect subsequent principal component estimations.

arxiv情報

著者 Fangshuo Liao,Junhyung Lyle Kim,Cruz Barnum,Anastasios Kyrillidis
発行日 2024-05-29 16:17:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, math.OC, stat.ML パーマリンク