Understand the Effect of Importance Weighting in Deep Learning on Dataset Shift

要約

ラベルシフトと共変量シフトの下で、深いニューラルネットワークにおける重要性の重み付けの有効性を評価します。
ロジスティック回帰とMLPSを使用して、合成2Dデータ(線形分離可能で月型)では、重みがトレーニングの早期に決定境界に強く影響するが、長期にわたる最適化でフェードすることが観察されます。
さまざまなクラスの不均衡があるCIFAR-10では、L2正規化(ドロップアウトではない)のみが重みの効果を維持するのに役立ちます。
共変量シフトの実験では、重要性の重み付けは大きなパフォーマンスの向上をもたらさず、複雑なデータの課題を強調します。
私たちの結果は、実際の分布シフトの重要性の重み付けの実用的な有用性に疑問を投げかけています。

要約(オリジナル)

We evaluate the effectiveness of importance weighting in deep neural networks under label shift and covariate shift. On synthetic 2D data (linearly separable and moon-shaped) using logistic regression and MLPs, we observe that weighting strongly affects decision boundaries early in training but fades with prolonged optimization. On CIFAR-10 with various class imbalances, only L2 regularization (not dropout) helps preserve weighting effects. In a covariate-shift experiment, importance weighting yields no significant performance gain, highlighting challenges on complex data. Our results call into question the practical utility of importance weighting for real-world distribution shifts.

arxiv情報

著者 Thien Nhan Vo,Thanh Xuan Truong
発行日 2025-05-06 15:16:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | Understand the Effect of Importance Weighting in Deep Learning on Dataset Shift はコメントを受け付けていません

EnsembleCI: Ensemble Learning for Carbon Intensity Forecasting

要約

炭素強度(CI)は、電力単位ごとに生成された平均炭素排出量を測定し、環境への影響を定量化して管理するための重要なメトリックになります。
正確なCI予測は、二酸化炭素排出量を最小限に抑えるために不可欠ですが、地域のばらつきと適応性の欠如に対処できないため、最先端の方法(カーボンキャスト)は不足しています。
これらの制限に対処するために、CI予測のための適応的なエンドツーエンドのアンサンブル学習ベースのアプローチであるEnsembleciを紹介します。
Ensembleciは、複数のサブレアナーからの加重予測を組み合わせて、柔軟性と地域の適応性の向上を提供します。
11の地域グリッドにわたる評価では、Ensembleciは一貫してカーボンキャストを上回り、ほぼすべてのグリッドで最も低い平均絶対率誤差(MAPE)を達成し、平均19.58%の予測精度を改善します。
地域の多様性が固有のためにパフォーマンスはグリッド全体で変化しますが、Ensembleciはカーボンキャストと比較して変動性を低下させ、長期予測の堅牢性を示し、地域固有の主要な機能を特定し、その解釈可能性と実用的な関連性を強調します。
これらの調査結果は、CI予測のためのより正確で信頼できるソリューションとしてEnsembleciを位置付けています。
このペーパーで使用されているEnsembleciソースコードとデータは、https://github.com/emmayly/ensembleciで入手できます。

要約(オリジナル)

Carbon intensity (CI) measures the average carbon emissions generated per unit of electricity, making it a crucial metric for quantifying and managing the environmental impact. Accurate CI predictions are vital for minimizing carbon footprints, yet the state-of-the-art method (CarbonCast) falls short due to its inability to address regional variability and lack of adaptability. To address these limitations, we introduce EnsembleCI, an adaptive, end-to-end ensemble learning-based approach for CI forecasting. EnsembleCI combines weighted predictions from multiple sublearners, offering enhanced flexibility and regional adaptability. In evaluations across 11 regional grids, EnsembleCI consistently surpasses CarbonCast, achieving the lowest mean absolute percentage error (MAPE) in almost all grids and improving prediction accuracy by an average of 19.58%. While performance still varies across grids due to inherent regional diversity, EnsembleCI reduces variability and exhibits greater robustness in long-term forecasting compared to CarbonCast and identifies region-specific key features, underscoring its interpretability and practical relevance. These findings position EnsembleCI as a more accurate and reliable solution for CI forecasting. EnsembleCI source code and data used in this paper are available at https://github.com/emmayly/EnsembleCI.

arxiv情報

著者 Leyi Yan,Linda Wang,Sihang Liu,Yi Ding
発行日 2025-05-06 15:33:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | EnsembleCI: Ensemble Learning for Carbon Intensity Forecasting はコメントを受け付けていません

Hybrid Reinforcement Learning and Model Predictive Control for Adaptive Control of Hydrogen-Diesel Dual-Fuel Combustion

要約

強化学習(RL)および機械学習統合モデル予測制御(ML-MPC)は、複数の入力量の複数の出力システムと非線形プロセスを効果的に制御できるため、水素ダイエルのデュアル燃料エンジン制御を最適化するための有望なアプローチです。
ML-MPCは、安全で最適な制御を提供し、事前定義された安全限界内でエンジンが動作するようにするために有利です。
対照的に、RLは、学習ベースのアプローチを通じて、条件の変化に対する適応性によって区別されます。
ただし、いずれかの方法だけの実際の実装は、課題をもたらします。
RLは、早期学習段階で制御入力の高い分散を必要とします。これにより、安全でないアクションが潜在的に実行される可能性があることにより、システムにリスクをもたらし、機械的損傷につながる可能性があります。
逆に、ML-MPCは正確なシステムモデルに依存して最適な制御入力を生成し、エンジンアプリケーションで自然に発生するインジェクターの老化など、システムドリフトへの適応性が限られています。
これらの制限に対処するために、この研究では、環境の変化に応じてML-MPCロードトラッキング参照を動的に調整するためにRLエージェントを組み込んでいる間、ML-MPCフレームワークを使用しながら、ハイブリッドRLおよびML-MPCアプローチを提案します。
同時に、ML-MPCは、RLエージェントの探査全体でアクションを安全に保つことを保証します。
このアプローチの有効性を評価するために、ML-MPCとエンジンテストベンチの間にモデル植物の不一致を導入するために、燃料圧力が意図的に変化します。
このミスマッチの結果は、ML-MPCを実行する際の平均有効圧力0.57 barのルート平均平方根誤差(RMSE)です。
実験結果は、ML-MPCが安全な制御入力を保証しながら、追跡参照を変更することにより、RLが境界条件の変化に正常に適応することを示しています。
RLを実装することによる負荷追跡の定量的改善は、0.44 BarのRSMEです。

要約(オリジナル)

Reinforcement Learning (RL) and Machine Learning Integrated Model Predictive Control (ML-MPC) are promising approaches for optimizing hydrogen-diesel dual-fuel engine control, as they can effectively control multiple-input multiple-output systems and nonlinear processes. ML-MPC is advantageous for providing safe and optimal controls, ensuring the engine operates within predefined safety limits. In contrast, RL is distinguished by its adaptability to changing conditions through its learning-based approach. However, the practical implementation of either method alone poses challenges. RL requires high variance in control inputs during early learning phases, which can pose risks to the system by potentially executing unsafe actions, leading to mechanical damage. Conversely, ML-MPC relies on an accurate system model to generate optimal control inputs and has limited adaptability to system drifts, such as injector aging, which naturally occur in engine applications. To address these limitations, this study proposes a hybrid RL and ML-MPC approach that uses an ML-MPC framework while incorporating an RL agent to dynamically adjust the ML-MPC load tracking reference in response to changes in the environment. At the same time, the ML-MPC ensures that actions stay safe throughout the RL agent’s exploration. To evaluate the effectiveness of this approach, fuel pressure is deliberately varied to introduce a model-plant mismatch between the ML-MPC and the engine test bench. The result of this mismatch is a root mean square error (RMSE) in indicated mean effective pressure of 0.57 bar when running the ML-MPC. The experimental results demonstrate that RL successfully adapts to changing boundary conditions by altering the tracking reference while ML-MPC ensures safe control inputs. The quantitative improvement in load tracking by implementing RL is an RSME of 0.44 bar.

arxiv情報

著者 Julian Bedei,Murray McBain,Alexander Winkler,Charles Robert Koch,Jakob Andert,David Gordon
発行日 2025-05-06 15:45:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | Hybrid Reinforcement Learning and Model Predictive Control for Adaptive Control of Hydrogen-Diesel Dual-Fuel Combustion はコメントを受け付けていません

Weighted Random Dot Product Graphs

要約

ネットワークデータの分析構造を通じて複雑なリレーショナルパターンのモデリングは、現代の統計研究と関連するデータサイエンス分野の基礎となっています。
グラフとして表されるネットワークは、この分析のための自然なフレームワークを提供します。
このペーパーでは、ランダムドット製品グラフ(RDPG)モデルを拡張して加重グラフに対応し、エッジが異種の重量分布を示すシナリオにモデルの範囲を著しく拡大します。
各ノードに潜在位置のシーケンスを割り当てるノンパラメトリック加重(W)RDPGモデルを提案します。
これらの節点ベクトルの内部積は、モーメント生成関数を介してインシデントエッジウェイトの分布のモーメントを指定します。
このようにして、以前のアートとは異なり、WRDPGは同じ平均を共有するが、他の高次モーメントで異なる重量分布を区別できます。
私たちは、主力の隣接スペクトル埋め込みから採用された節点の潜在位置の推定器の統計的保証を導き出し、その一貫性と漸近正常性を確立します。
また、(規定またはデータに適合した)WRDPGに付着するグラフのサンプリングを可能にする生成フレームワークを提供し、例えば、賢明な参照分布を使用した観察されたグラフメトリックの分析とテストを促進します。
このペーパーは、モデルの定義、推定(またはノーダル埋め込み)プロセスとその保証、および加重グラフを生成するための方法論を形式化するために編成されています。これらはすべて、さまざまなネットワーク分析アプリケーションにおけるWRDPGの有効性を示す実例と再現可能な例によって補完されます。

要約(オリジナル)

Modeling of intricate relational patterns % through the analysis structures of network data has become a cornerstone of contemporary statistical research and related data science fields. Networks, represented as graphs, offer a natural framework for this analysis. This paper extends the Random Dot Product Graph (RDPG) model to accommodate weighted graphs, markedly broadening the model’s scope to scenarios where edges exhibit heterogeneous weight distributions. We propose a nonparametric weighted (W)RDPG model that assigns a sequence of latent positions to each node. Inner products of these nodal vectors specify the moments of their incident edge weights’ distribution via moment-generating functions. In this way, and unlike prior art, the WRDPG can discriminate between weight distributions that share the same mean but differ in other higher-order moments. We derive statistical guarantees for an estimator of the nodal’s latent positions adapted from the workhorse adjacency spectral embedding, establishing its consistency and asymptotic normality. We also contribute a generative framework that enables sampling of graphs that adhere to a (prescribed or data-fitted) WRDPG, facilitating, e.g., the analysis and testing of observed graph metrics using judicious reference distributions. The paper is organized to formalize the model’s definition, the estimation (or nodal embedding) process and its guarantees, as well as the methodologies for generating weighted graphs, all complemented by illustrative and reproducible examples showcasing the WRDPG’s effectiveness in various network analytic applications.

arxiv情報

著者 Bernardo Marenco,Paola Bermolen,Marcelo Fiori,Federico Larroca,Gonzalo Mateos
発行日 2025-05-06 15:57:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, math.CO, math.PR, stat.ML | Weighted Random Dot Product Graphs はコメントを受け付けていません

Mitigating mode collapse in normalizing flows by annealing with an adaptive schedule: Application to parameter estimation

要約

正規化フロー(NFS)は、複雑な分布から相関していないサンプルを提供し、パラメーター推定のための魅力的なツールになります。
ただし、NFSの実用的な有用性は、マルチモーダル分布の単一モードに崩壊する傾向によって制限されたままです。
この研究では、効果的なサンプルサイズ(ESS)に基づいた適応スケジュールを使用したアニーリングがモード崩壊を緩和できることを示しています。
私たちのアプローチは、広く使用されているアンサンブルマルコフチェーンモンテカルロ(MCMC)メソッドよりも10倍の計算時間で時系列データに適合する生化学オシレータモデルの周辺尤度を収束させることができることを実証します。
ESSは、サンプルを剪定することで分散を減らすためにも使用できることを示します。
これらの開発は、NFSとのサンプリングに一般的に使用され、さらなる改善のための潜在的な機会を議論することを期待しています。

要約(オリジナル)

Normalizing flows (NFs) provide uncorrelated samples from complex distributions, making them an appealing tool for parameter estimation. However, the practical utility of NFs remains limited by their tendency to collapse to a single mode of a multimodal distribution. In this study, we show that annealing with an adaptive schedule based on the effective sample size (ESS) can mitigate mode collapse. We demonstrate that our approach can converge the marginal likelihood for a biochemical oscillator model fit to time-series data in ten-fold less computation time than a widely used ensemble Markov chain Monte Carlo (MCMC) method. We show that the ESS can also be used to reduce variance by pruning the samples. We expect these developments to be of general use for sampling with NFs and discuss potential opportunities for further improvements.

arxiv情報

著者 Yihang Wang,Chris Chi,Aaron R. Dinner
発行日 2025-05-06 15:58:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, physics.comp-ph, physics.data-an, q-bio.QM, stat.ML | Mitigating mode collapse in normalizing flows by annealing with an adaptive schedule: Application to parameter estimation はコメントを受け付けていません

A Survey on Self-Supervised Graph Foundation Models: Knowledge-Based Perspective

要約

グラフ自己学習学習(SSL)は、トレーニング前のグラフ基礎モデル(GFM)の頼りになる方法になりました。
GFMの一般化された表現を学習するために重要なノードプロパティやクラスターなど、グラフデータに埋め込まれたさまざまな知識パターンがあります。
ただし、GFMの既存の調査にはいくつかの欠点があります。それらは、最新の進歩に関する包括性を欠いており、自己教師の方法の分類が不明確になり、特定のタイプのグラフモデルのみに限定されている限られたアーキテクチャベースの視点を取ります。
GFMSの究極の目標は一般化されたグラフの知識を学ぶことであるため、新しい知識ベースの観点から自己監視GFMの包括的な調査を提供します。
知識ベースの分類法を提案します。知識ベースの分類法は、使用されている特定のグラフ知識によって自己監視されたグラフモデルを分類します。
私たちの分類法は、顕微鏡(ノード、リンクなど)、中鏡(コンテキスト、クラスターなど)、および巨視的な知識(グローバル構造、マニホールドなど)で構成されています。
トレーニング前のGFMの合計9つの知識カテゴリと25を超える口実タスク、およびさまざまなダウンストリームタスク一般化戦略をカバーしています。
このような知識ベースの分類法により、グラフ言語モデルなどの新しいアーキテクチャに基づいてグラフモデルをより明確に再検討し、GFMを構築するためのより詳細な洞察を提供することができます。

要約(オリジナル)

Graph self-supervised learning (SSL) is now a go-to method for pre-training graph foundation models (GFMs). There is a wide variety of knowledge patterns embedded in the graph data, such as node properties and clusters, which are crucial to learning generalized representations for GFMs. However, existing surveys of GFMs have several shortcomings: they lack comprehensiveness regarding the most recent progress, have unclear categorization of self-supervised methods, and take a limited architecture-based perspective that is restricted to only certain types of graph models. As the ultimate goal of GFMs is to learn generalized graph knowledge, we provide a comprehensive survey of self-supervised GFMs from a novel knowledge-based perspective. We propose a knowledge-based taxonomy, which categorizes self-supervised graph models by the specific graph knowledge utilized. Our taxonomy consists of microscopic (nodes, links, etc.), mesoscopic (context, clusters, etc.), and macroscopic knowledge (global structure, manifolds, etc.). It covers a total of 9 knowledge categories and more than 25 pretext tasks for pre-training GFMs, as well as various downstream task generalization strategies. Such a knowledge-based taxonomy allows us to re-examine graph models based on new architectures more clearly, such as graph language models, as well as provide more in-depth insights for constructing GFMs.

arxiv情報

著者 Ziwen Zhao,Yixin Su,Yuhua Li,Yixiong Zou,Ruixuan Li,Rui Zhang
発行日 2025-05-06 16:02:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.SI | A Survey on Self-Supervised Graph Foundation Models: Knowledge-Based Perspective はコメントを受け付けていません

Vector valued optimal transport: from dynamic to static formulations

要約

ベクターの評価測定と多種種PDEの分類におけるアプリケーションに動機付けられているため、動的製剤(\ `a la benamou-brenier)から静的定式化(\` a la kantorovich)まで、ベクターの価値のある最適輸送の既存の概念を統一する理論を開発します。
私たちのフレームワークでは、ベクトルの価値のある測定値は、製品スペース$ \ mathbb {r}^d \ times g $の確率測定としてモデル化されています。ここで、$ g $は有限のノードのセットで加重グラフであり、グラフジオメトリは関連する動的距離と静的距離に強く影響します。
ベクトルの価値のある最適な輸送の4つの概念を関連付ける鋭い不平等を取得し、距離が相互に古い同等物であることを証明します。
各メトリックの理論的および実用的な利点について説明し、複数のPDEおよびデータ分析における潜在的なアプリケーションを示します。
特に、論文で説明されている静的な定式化の1つは線形化に適しています。これは、ペアワイズ最適輸送距離の計算を加速するために近年調査されている手法です。

要約(オリジナル)

Motivated by applications in classification of vector valued measures and multispecies PDE, we develop a theory that unifies existing notions of vector valued optimal transport, from dynamic formulations (\`a la Benamou-Brenier) to static formulations (\`a la Kantorovich). In our framework, vector valued measures are modeled as probability measures on a product space $\mathbb{R}^d \times G$, where $G$ is a weighted graph over a finite set of nodes and the graph geometry strongly influences the associated dynamic and static distances. We obtain sharp inequalities relating four notions of vector valued optimal transport and prove that the distances are mutually bi-H\’older equivalent. We discuss the theoretical and practical advantages of each metric and indicate potential applications in multispecies PDE and data analysis. In particular, one of the static formulations discussed in the paper is amenable to linearization, a technique that has been explored in recent years to accelerate the computation of pairwise optimal transport distances.

arxiv情報

著者 Katy Craig,Nicolás García Trillos,Đorđe Nikolić
発行日 2025-05-06 16:10:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, math.AP, math.MG | Vector valued optimal transport: from dynamic to static formulations はコメントを受け付けていません

Neural Integral Operators for Inverse problems in Spectroscopy

要約

深い学習は、十分なデータが利用可能な場合、分光逆問題の高性能を示しています。
しかし、多くの場合、分光法のデータが乏しく、これは通常、深い学習方法で深刻な過剰適合の問題を引き起こします。
データセットが小さい場合、従来の機械学習方法は実行可能ですが、これらの方法の精度と適用性は一般的に制限されています。
最初の種類の積分方程式を介した学習積分演算子に基づいて分子スペクトルを分類するための深い学習方法を紹介します。これは、他の深い学習モデルと比較して、小さなデータセットの問題の過剰適合によって影響を受けるアルゴリズムになります。
深い学習アプローチの問題の定式化は、分光法で重要な用途を伝統的に発見してきた逆問題に基づいています。
実世界データの実験を実行して、アルゴリズムを紹介します。
モデルは、決定ツリーやサポートベクターマシンなどの従来の機械学習アプローチを上回ることがわかり、小さなデータセットでは他の深い学習モデルよりも優れています。
したがって、私たちの方法論は深い学習の力を活用しますが、利用可能なデータが非常に限られている場合、パフォーマンスを維持します。これは、データセットが多くの場合わずかなサイズの時間である分光法で深い学習が直面する主な問題の1つです。

要約(オリジナル)

Deep learning has shown high performance on spectroscopic inverse problems when sufficient data is available. However, it is often the case that data in spectroscopy is scarce, and this usually causes severe overfitting problems with deep learning methods. Traditional machine learning methods are viable when datasets are smaller, but the accuracy and applicability of these methods is generally more limited. We introduce a deep learning method for classification of molecular spectra based on learning integral operators via integral equations of the first kind, which results in an algorithm that is less affected by overfitting issues on small datasets, compared to other deep learning models. The problem formulation of the deep learning approach is based on inverse problems, which have traditionally found important applications in spectroscopy. We perform experiments on real world data to showcase our algorithm. It is seen that the model outperforms traditional machine learning approaches such as decision tree and support vector machine, and for small datasets it outperforms other deep learning models. Therefore, our methodology leverages the power of deep learning, still maintaining the performance when the available data is very limited, which is one of the main issues that deep learning faces in spectroscopy, where datasets are often times of small size.

arxiv情報

著者 Emanuele Zappala,Alice Giola,Andreas Kramer,Enrico Greco
発行日 2025-05-06 16:22:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | Neural Integral Operators for Inverse problems in Spectroscopy はコメントを受け付けていません

Multi-modal cascade feature transfer for polymer property prediction

要約

この論文では、ポリマー特性予測の特徴転送を備えたマルチモーダルカスケードモデルと呼ばれる新しい転送学習アプローチを提案します。ポリマーは、分子記述子や追加情報、化学構造など、いくつかの異なる形式のデータの複合によって特徴付けられます。
ただし、従来のアプローチでは、各タイプのデータを個別に使用して予測モデルが構築されることがよくありました。
私たちのモデルは、グラフ畳み込みニューラルネットワーク(GCN)と分子記述子や加算情報などの特徴によって化学構造から抽出された特徴を組み合わせることにより、ポリマーの物理的特性のより正確な予測を可能にします。
提案された方法の予測性能は、いくつかのポリマーデータセットを使用して経験的に評価されます。
提案された方法は、単一の機能を使用して、ベースラインの従来のアプローチと比較して高い予測性能を示していると報告しています。

要約(オリジナル)

In this paper, we propose a novel transfer learning approach called multi-modal cascade model with feature transfer for polymer property prediction.Polymers are characterized by a composite of data in several different formats, including molecular descriptors and additive information as well as chemical structures. However, in conventional approaches, prediction models were often constructed using each type of data separately. Our model enables more accurate prediction of physical properties for polymers by combining features extracted from the chemical structure by graph convolutional neural networks (GCN) with features such as molecular descriptors and additive information. The predictive performance of the proposed method is empirically evaluated using several polymer datasets. We report that the proposed method shows high predictive performance compared to the baseline conventional approach using a single feature.

arxiv情報

著者 Kiichi Obuchi,Yuta Yahagi,Kiyohiko Toyama,Shukichi Tanaka,Kota Matsui
発行日 2025-05-06 17:24:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML | Multi-modal cascade feature transfer for polymer property prediction はコメントを受け付けていません

Sharp Global Guarantees for Nonconvex Low-rank Recovery in the Noisy Overparameterized Regime

要約

最近の研究により、ランクのオーバーパラメーター化は、制限された等式プロパティ(RIP)の下での非凸型の低ランクマトリックス回復における偽の局所ミニマを排除することが確立されました。
しかし、これは、すべてのローカルミニマがグローバルであっても、実際のアルゴリズムが非収縮サドルポイント(任意の小さな負の湾曲を伴うおおよその2次ポイント)に閉じ込められる可能性があるため、オーバーパラメーター化の実際的な成功を完全には説明していません。
さらに、結果は騒々しい測定には対応しませんが、オーバーパラメーター化された体制ですでに知られている多くの不連続で直感的ではない行動を考慮して、そのような拡張が可能であるかどうかは不明です。
この論文では、騒々しいオーバーパラメーター化された体制で鋭いグローバルな保証を提供するために、脱出方向に基づいた2つの以前に競合するアプローチを統合、簡素化、および強化する新しい証拠技術を紹介します。
局所的な最小値がわずかなオーバーパラメーター化によりグローバルミニマに変換されると、ほぼ2秒のポイントが、より高価な凸のアプローチと同じ最小限の最適な回復境界(小さな定数因子まで)を達成することを示します。
私たちの結果は、ノイズレベルとソリューションの精度に関して鋭く、対称パラメーター化$ xx^{t} $の両方と、バランスのとれた正規者の下の非対称パラメーター化$ uv^{t} $の両方を保持します。
バランスのとれた正規者が実際に必要であることを実証します。

要約(オリジナル)

Recent work established that rank overparameterization eliminates spurious local minima in nonconvex low-rank matrix recovery under the restricted isometry property (RIP). But this does not fully explain the practical success of overparameterization, because real algorithms can still become trapped at nonstrict saddle points (approximate second-order points with arbitrarily small negative curvature) even when all local minima are global. Moreover, the result does not accommodate for noisy measurements, but it is unclear whether such an extension is even possible, in view of the many discontinuous and unintuitive behaviors already known for the overparameterized regime. In this paper, we introduce a novel proof technique that unifies, simplifies, and strengthens two previously competing approaches — one based on escape directions and the other based on the inexistence of counterexample — to provide sharp global guarantees in the noisy overparameterized regime. We show, once local minima have been converted into global minima through slight overparameterization, that near-second-order points achieve the same minimax-optimal recovery bounds (up to small constant factors) as significantly more expensive convex approaches. Our results are sharp with respect to the noise level and the solution accuracy, and hold for both the symmetric parameterization $XX^{T}$, as well as the asymmetric parameterization $UV^{T}$ under a balancing regularizer; we demonstrate that the balancing regularizer is indeed necessary.

arxiv情報

著者 Richard Y. Zhang
発行日 2025-05-06 17:29:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, math.OC, stat.ML | Sharp Global Guarantees for Nonconvex Low-rank Recovery in the Noisy Overparameterized Regime はコメントを受け付けていません