Warped geometric information on the optimisation of Euclidean functions

要約

多くの機械学習タスクにおける損失関数や統計的推論における確率分布の対数など、潜在的に高次元のユークリッド空間で定義された実数値関数を最適化するという基本的なタスクを検討します。
歪んだリーマン幾何学の概念を使用して、ユークリッド空間上の関数の最適化問題を歪んだ計量を持つリーマン多様体に再定義し、この多様体に沿って関数の最適値を見つけます。
検索ドメインに選択されたワープ計量により、多様体上の測地線に関連する最適な検索方向の計算が容易になる、計算に適した計量テンソルが生成されます。
測地線に沿った最適化の実行は一般に実行不可能であることが知られていますが、この特定の多様体では 3 次までのテイラー近似を解析的に導出できることを示します。
一般に、測地線に対するこれらの近似は多様体上には存在しませんが、適切なリトラクション マップを構築してそれらを多様体上に引き戻します。
したがって、近似測地線に沿って効率的に最適化できます。
関連する理論を取り上げ、実用的な最適化アルゴリズムを説明し、一連の困難な最適化ベンチマークで経験的に評価します。
私たちが提案するアルゴリズムは、測地線の 3 次近似を使用しており、収束までの反復回数とヘッセ行列ベースの最適化ルーチンの代替方法の点で、標準的なユークリッド勾配ベースのアルゴリズムよりも優れています。

要約(オリジナル)

We consider the fundamental task of optimizing a real-valued function defined in a potentially high-dimensional Euclidean space, such as the loss function in many machine-learning tasks or the logarithm of the probability distribution in statistical inference. We use the warped Riemannian geometry notions to redefine the optimisation problem of a function on Euclidean space to a Riemannian manifold with a warped metric, and then find the function’s optimum along this manifold. The warped metric chosen for the search domain induces a computational friendly metric-tensor for which optimal search directions associate with geodesic curves on the manifold becomes easier to compute. Performing optimization along geodesics is known to be generally infeasible, yet we show that in this specific manifold we can analytically derive Taylor approximations up to third-order. In general these approximations to the geodesic curve will not lie on the manifold, however we construct suitable retraction maps to pull them back onto the manifold. Therefore, we can efficiently optimize along the approximate geodesic curves. We cover the related theory, describe a practical optimization algorithm and empirically evaluate it on a collection of challenging optimisation benchmarks. Our proposed algorithm, using third-order approximation of geodesics, outperforms standard Euclidean gradient-based counterparts in term of number of iterations until convergence and an alternative method for Hessian-based optimisation routines.

arxiv情報

著者 Marcelo Hartmann,Bernardo Williams,Hanlin Yu,Mark Girolami,Alessandro Barp,Arto Klami
発行日 2023-08-16 12:08:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML パーマリンク