Approximating Metric Magnitude of Point Sets

要約

計量マグニチュードは、多くの望ましい幾何学的特性を持つ点群の「サイズ」の尺度です。
これはさまざまな数学的コンテキストに適応されており、最近の研究では、機械学習および最適化アルゴリズムを強化できることが示唆されています。
ただし、データセットが大きい場合、または計算を繰り返し実行する必要がある場合 (モデルのトレーニングなど) には、計算コストがかかるため、その有用性は制限されます。
この論文では、大きさの計算問題を研究し、それを近似する効率的な方法を示します。
凸最適化問題としてはキャストできるが、サブモジュール最適化としてはキャストできないことを示します。
この論文では、2 つの新しいアルゴリズムについて説明しています。1 つは高速で正確に収束する反復近似アルゴリズム、もう 1 つは計算をさらに高速化するサブセット選択方法です。
確率的勾配降下法中に生成されるモデル系列の大きさが汎化ギャップと相関していることが以前に提案されています。
よりスケーラブルなアルゴリズムを使用してこの結果を拡張すると、実際には長いシーケンスほど高い相関関係があることがわかります。
また、ニューラル ネットワーク トレーニングの効果的な正則化手段として、また新しいクラスタリング基準として、機械学習における大きな応用例についても説明します。

要約(オリジナル)

Metric magnitude is a measure of the ‘size’ of point clouds with many desirable geometric properties. It has been adapted to various mathematical contexts and recent work suggests that it can enhance machine learning and optimization algorithms. But its usability is limited due to the computational cost when the dataset is large or when the computation must be carried out repeatedly (e.g. in model training). In this paper, we study the magnitude computation problem, and show efficient ways of approximating it. We show that it can be cast as a convex optimization problem, but not as a submodular optimization. The paper describes two new algorithms – an iterative approximation algorithm that converges fast and is accurate, and a subset selection method that makes the computation even faster. It has been previously proposed that magnitude of model sequences generated during stochastic gradient descent is correlated to generalization gap. Extension of this result using our more scalable algorithms shows that longer sequences in fact bear higher correlations. We also describe new applications of magnitude in machine learning – as an effective regularizer for neural network training, and as a novel clustering criterion.

arxiv情報

著者 Rayna Andreeva,James Ward,Primoz Skraba,Jie Gao,Rik Sarkar
発行日 2024-09-06 17:15:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, math.MG パーマリンク