Optimization without Retraction on the Random Generalized Stiefel Manifold

要約

$X^\top B X = I_p$ を満たす行列 $X$ のセットに対する最適化は、一般化シュティーフェル多様体と呼ばれ、正準相関分析 (CCA)、独立成分分析など、サンプリングされた共分散行列を含む多くのアプリケーションで使用されます。
(ICA)、および一般化固有値問題 (GEVP)。
これらの問題の解決は通常、完全に形成された $B$ を必要とする反復法によって行われます。
$B$ のランダムな推定値のみにアクセスしながら最適化問題を解決する、安価な確率的反復法を提案します。
私たちの方法では、反復ごとに制約を強制するわけではありません。
代わりに、期待値で定義された一般化シュティーフェル多様体の臨界点に収束する反復を生成します。
この方法は反復あたりのコストが低く、行列の乗算のみを必要とし、完全な行列 $B$ を必要とする対応するリーマン最適化法と同じ収束率を持ちます。
実験では、CCA、ICA、GEVP などの一般化された直交性制約を含むさまざまな機械学習アプリケーションにおけるその有効性が実証されています。

要約(オリジナル)

Optimization over the set of matrices $X$ that satisfy $X^\top B X = I_p$, referred to as the generalized Stiefel manifold, appears in many applications involving sampled covariance matrices such as the canonical correlation analysis (CCA), independent component analysis (ICA), and the generalized eigenvalue problem (GEVP). Solving these problems is typically done by iterative methods that require a fully formed $B$. We propose a cheap stochastic iterative method that solves the optimization problem while having access only to random estimates of $B$. Our method does not enforce the constraint in every iteration; instead, it produces iterations that converge to critical points on the generalized Stiefel manifold defined in expectation. The method has lower per-iteration cost, requires only matrix multiplications, and has the same convergence rates as its Riemannian optimization counterparts that require the full matrix $B$. Experiments demonstrate its effectiveness in various machine learning applications involving generalized orthogonality constraints, including CCA, ICA, and the GEVP.

arxiv情報

著者 Simon Vary,Pierre Ablin,Bin Gao,P. -A. Absil
発行日 2024-11-08 18:17:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 90C15, 90C26, cs.LG, math.OC, stat.ML パーマリンク