FedORGP: Guiding Heterogeneous Federated Learning with Orthogonality Regularization on Global Prototypes

要約

Federated Learning(FL)は、特にプライバシーを提供するデータ処理の可能性があるため、分散型機械学習のための重要なフレームワークとして浮上しています。
ただし、既存のFLフレームワークは、モデルのパフォーマンスに深刻な影響を与える統計的およびモデルの不均一性に対処するのに苦労しています。
不均一なフェデレーションラーニング(HTFL)は、課題に対処するためのプロトタイプベースの戦略を導入しますが、現在のアプローチはプロトタイプの最適な分離を達成するための直面の制限です。
このホワイトペーパーでは、直交性の正規化を通じてグローバルなプロトタイプ分離を改善するように設計された新しいHTFLアルゴリズムであるFedorgpを紹介します。
グローバルプロトタイプのガイダンスにより、各クライアントは、特徴空間の対応するプロトタイプと埋め込みを整え、交差エントロピー(CE)の損失とシームレスに統合する方向性の独立性を促進します。
非凸条件下でのFedORGPの収束の理論的証明を提供します。
広範な実験は、FedorGPが7つの最先端のベースラインを上回り、統計的およびモデルの不均一性が共存するシナリオで最大10.12 \%の精度の向上を達成することを示しています。

要約(オリジナル)

Federated Learning (FL) has emerged as an essential framework for distributed machine learning, especially with its potential for privacy-preserving data processing. However, existing FL frameworks struggle to address statistical and model heterogeneity, which severely impacts model performance. While Heterogeneous Federated Learning (HtFL) introduces prototype-based strategies to address the challenges, current approaches face limitations in achieving optimal separation of prototypes. This paper presents FedORGP, a novel HtFL algorithm designed to improve global prototype separation through orthogonality regularization, which not only encourages intra-class prototype similarity but also significantly expands the inter-class angular separation. With the guidance of the global prototype, each client keeps its embeddings aligned with the corresponding prototype in the feature space, promoting directional independence that integrates seamlessly with the cross-entropy (CE) loss. We provide theoretical proof of FedORGP’s convergence under non-convex conditions. Extensive experiments demonstrate that FedORGP outperforms seven state-of-the-art baselines, achieving up to 10.12\% accuracy improvement in scenarios where statistical and model heterogeneity coexist.

arxiv情報

著者 Fucheng Guo,Zeyu Luan,Qing Li,Dan Zhao,Yong Jiang
発行日 2025-04-01 08:50:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.DC, cs.LG | FedORGP: Guiding Heterogeneous Federated Learning with Orthogonality Regularization on Global Prototypes はコメントを受け付けていません

FedECA: A Federated External Control Arm Method for Causal Inference with Time-To-Event Data in Distributed Settings

要約

外部コントロールアーム(ECA)は、実験薬の早期臨床開発に通知し、規制当局の承認の有効性の証拠を提供することができます。
ただし、ECAの実装における主な課題は、実際のまたは歴史的な臨床試験データへのアクセスにあります。
実際、データ処理を厳密に制御することにより患者の権利を保護する規制により、中央サーバーの複数のソースからのプールデータがしばしば困難になります。
これらの制限に対処するために、データをプールする必要なく、個別のコホートでのイベント結果の時間までの結果の逆確率(IPTW)を可能にするために、フェデレートラーニング(FL)を活用する新しい方法「Fedeca」を開発します。
フェデカの可能性を紹介するために、転移性膵臓癌患者の3つの別々のコホートからのデータを使用して、2つの承認された化学療法レジメンの治療効果を比較するためにフェデカを使用する実世界のユースケースで頂点に達する複雑さの増加のさまざまな設定でそれを適用します。
コードを共有することで、フェデカがフェデレーション研究ネットワークの作成を促進し、したがって医薬品開発を加速することを願っています。

要約(オリジナル)

External control arms (ECA) can inform the early clinical development of experimental drugs and provide efficacy evidence for regulatory approval. However, the main challenge in implementing ECA lies in accessing real-world or historical clinical trials data. Indeed, regulations protecting patients’ rights by strictly controlling data processing make pooling data from multiple sources in a central server often difficult. To address these limitations, we develop a new method, ‘FedECA’ that leverages federated learning (FL) to enable inverse probability of treatment weighting (IPTW) for time-to-event outcomes on separate cohorts without needing to pool data. To showcase the potential of FedECA, we apply it in different settings of increasing complexity culminating with a real-world use-case in which FedECA is used to compare the treatment effect of two approved chemotherapy regimens using data from three separate cohorts of patients with metastatic pancreatic cancer. By sharing our code, we hope FedECA will foster the creation of federated research networks and thus accelerate drug development.

arxiv情報

著者 Jean Ogier du Terrail,Quentin Klopfenstein,Honghao Li,Imke Mayer,Nicolas Loiseau,Mohammad Hallal,Michael Debouver,Thibault Camalon,Thibault Fouqueray,Jorge Arellano Castro,Zahia Yanes,Laetitia Dahan,Julien Taïeb,Pierre Laurent-Puig,Jean-Baptiste Bachet,Shulin Zhao,Remy Nicolle,Jérome Cros,Daniel Gonzalez,Robert Carreras-Torres,Adelaida Garcia Velasco,Kawther Abdilleh,Sudheer Doss,Félix Balazard,Mathieu Andreux
発行日 2025-04-01 09:43:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.DC, cs.LG, stat.ME | FedECA: A Federated External Control Arm Method for Causal Inference with Time-To-Event Data in Distributed Settings はコメントを受け付けていません

ExMAG: Learning of Maximally Ancestral Graphs

要約

統計的学習から因果学習に1つの移行が進むにつれて、最も適切な因果モデルを求めています。
動的なベイジアンネットワークは、重み付けされた指向の非環式グラフが因果関係を表す人気のあるモデルです。
確率的プロセスはその頂点で表され、加重指向のエッジは因果関係の強さを示唆しています。
交絡因子が存在する場合、両方の配向エッジ(因果関係の方向が明確な場合)と配向されていないエッジ(交絡因子がある場合、または関係がない場合)を使用して、混合グラフを生成したいと考えています。
この混合グラフの設定に対する非環式の拡張は、交絡因子を考慮した最大の先祖グラフとして知られています。
祖先のグラフを最大に学習するためのスコアベースの学習アルゴリズムを提案します。
混合整数の2次プログラムが策定され、アルゴリズムアプローチが提案されます。このアプローチでは、いわゆる分岐とカット(「レイジー制約」)メソッドの違反された制約のみを生成することにより、指数関数的に多くの制約を生成することで回避されます。
最先端のアプローチを比較すると、提案されたアプローチが、最大25の変数を含む中小規模の合成インスタンスに適用すると、より正確な結果を生成することが判明したことを示します。

要約(オリジナル)

As one transitions from statistical to causal learning, one is seeking the most appropriate causal model. Dynamic Bayesian networks are a popular model, where a weighted directed acyclic graph represents the causal relationships. Stochastic processes are represented by its vertices, and weighted oriented edges suggest the strength of the causal relationships. When there are confounders, one would like to utilize both oriented edges (when the direction of causality is clear) and edges that are not oriented (when there is a confounder or not a relationship), yielding mixed graphs. A little-studied extension of acyclicity to this mixed-graph setting is known as maximally ancestral graphs with consideration of confounders. We propose a score-based learning algorithm for learning maximally ancestral graphs. A mixed-integer quadratic program is formulated, and an algorithmic approach is proposed, in which the pre-generation of exponentially many constraints is avoided by generating only violated constraints in the so-called branch-and-cut (“lazy constraint”) method. Comparing the novel approach to the state-of-the-art, we show that the proposed approach turns out to produce more accurate results when applied to small and medium-sized synthetic instances containing up to 25 variables.

arxiv情報

著者 Petr Ryšavý,Pavel Rytíř,Xiaoyu He,Georgios Korpas,Jakub Mareček
発行日 2025-04-01 10:35:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | ExMAG: Learning of Maximally Ancestral Graphs はコメントを受け付けていません

Illuminating the Diversity-Fitness Trade-Off in Black-Box Optimization

要約

実際のアプリケーションでは、ユーザーは多くの場合、1つの高品質のソリューションよりも構造的に多様な設計選択を支持します。
したがって、意思決定者が追加の基準に基づいて比較し、さらに調査できるソリューションをより多く検討することが重要です。
進化の多様性の最適化、品質の多様性、マルチモーダルの最適化の既存のアプローチに加えて、このペーパーでは、平均的な品質を最大化しながら、指定されたしきい値を上回るペアワイズ距離を持つ固定数のソリューションを識別する問題を考慮することにより、この課題に関する新たな視点を提示します。
これらの目的についての最初の洞察は、多様性を念頭に置いて設計されているかどうかにかかわらず、さまざまな確立された検索ヒューリスティックの検索軌跡でサブセット選択を実行することにより、最初に洞察を得ます。
私たちの仕事の主な目標は、新しいアルゴリズムを提示することではなく、既製のアルゴリズムの能力を理解して、ソリューションのバッチ内の最小ペアワイズ距離とその平均品質のトレードオフを定量化することであることを強調しています。
また、このトレードオフが基礎となる最適化問題の特性にどのように依存するかを分析します。
私たちの経験的研究のおそらく驚くべき結果は、単純な均一なランダムサンプリングが私たちの問題の非常に強力なベースラインを確立するという観察です。
これらの結果は、平均的な品質の多様なソリューションを生成するために調整されたアルゴリズムを開発する動機として解釈します。

要約(オリジナル)

In real-world applications, users often favor structurally diverse design choices over one high-quality solution. It is hence important to consider more solutions that decision makers can compare and further explore based on additional criteria. Alongside the existing approaches of evolutionary diversity optimization, quality diversity, and multimodal optimization, this paper presents a fresh perspective on this challenge by considering the problem of identifying a fixed number of solutions with a pairwise distance above a specified threshold while maximizing their average quality. We obtain first insight into these objectives by performing a subset selection on the search trajectories of different well-established search heuristics, whether they have been specifically designed with diversity in mind or not. We emphasize that the main goal of our work is not to present a new algorithm but to understand the capability of off-the-shelf algorithms to quantify the trade-off between the minimum pairwise distance within batches of solutions and their average quality. We also analyze how this trade-off depends on the properties of the underlying optimization problem. A possibly surprising outcome of our empirical study is the observation that naive uniform random sampling establishes a very strong baseline for our problem, hardly ever outperformed by the search trajectories of the considered heuristics. We interpret these results as a motivation to develop algorithms tailored to produce diverse solutions of high average quality.

arxiv情報

著者 Maria Laura Santoni,Elena Raponi,Aneta Neumann,Frank Neumann,Mike Preuss,Carola Doerr
発行日 2025-04-01 11:14:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | Illuminating the Diversity-Fitness Trade-Off in Black-Box Optimization はコメントを受け付けていません

Exact full-RSB SAT/UNSAT transition in infinitely wide two-layer neural networks

要約

2つのクラスの連続非凸重量モデルを使用して、ランダムパターンラベル関連を保存する問題を分析します。つまり、負のマージンを持つパーセプトロンと、非重複受容フィールドと一般的な活性化関数を備えた無限幅の2層ニューラルネットワークです。
Full-RSB Ansatzを使用して、SAT/UNSAT遷移の正確な値を計算します。
さらに、負のパーセプトロンの場合、典型的な状態のオーバーラップ分布が、保存するマージンの値とパターンの密度によって定義される位相図の特定の領域にオーバーラップギャップ(切断されたサポート)を表示することを示します。
これは、近似メッセージパッシング(AMP)ベースのアルゴリズムが容量に収束することを保証する最近の定理が適用されないことを意味します。
最後に、勾配降下は、典型的な状態のオーバーラップギャップの存在について、最大容量に到達できないことを示します。
この発見は、バイナリ重量モデルで発生するものと同様に、勾配ベースのアルゴリズムが非常に非定型状態に偏っていることを示唆しています。

要約(オリジナル)

We analyze the problem of storing random pattern-label associations using two classes of continuous non-convex weights models, namely the perceptron with negative margin and an infinite-width two-layer neural network with non-overlapping receptive fields and generic activation function. Using a full-RSB ansatz we compute the exact value of the SAT/UNSAT transition. Furthermore, in the case of the negative perceptron we show that the overlap distribution of typical states displays an overlap gap (a disconnected support) in certain regions of the phase diagram defined by the value of the margin and the density of patterns to be stored. This implies that some recent theorems that ensure convergence of Approximate Message Passing (AMP) based algorithms to capacity are not applicable. Finally, we show that Gradient Descent is not able to reach the maximal capacity, irrespectively of the presence of an overlap gap for typical states. This finding, similarly to what occurs in binary weight models, suggests that gradient-based algorithms are biased towards highly atypical states, whose inaccessibility determines the algorithmic threshold.

arxiv情報

著者 Brandon L. Annesi,Enrico M. Malatesta,Francesco Zamponi
発行日 2025-04-01 11:50:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cond-mat.dis-nn, cs.LG, math.PR | Exact full-RSB SAT/UNSAT transition in infinitely wide two-layer neural networks はコメントを受け付けていません

Sharp Rates in Dependent Learning Theory: Avoiding Sample Size Deflation for the Square Loss

要約

この作業では、仮説クラスの依存性($ \ beta $ -mixing)データと平方損失を使用して統計学習を研究します$ \ mathscr {f} \ subset l _ {\ psi_p} $ここで
m^{ – 1/p} \ | f \ | _ {l^m} $ for $ p \ in [2、\ infty] $。
私たちの問い合わせは、依存データを使用した学習における鋭いノイズ相互作用用語または分散プロキシの検索によって動機付けられています。
実現可能性の仮定がないと、典型的な非症状の結果は、基礎となる共変量プロセスの混合時間によって増殖する分散プロキシを示します。
$ l^2 $および$ \ psi_p $のトポロジーが仮説クラス$ \ mathscr {f} $ – つまり、$ \ mathscr {f} $は弱くサブガウシア語クラス:$ \ | f \ | _ {\ psi_p}
\ | f \ | _ {l^2}^\ eta $ for $ \ eta \ in(0,1] $ – 経験的リスクミニマイザーは、主要な用語のクラスの複雑さと二次統計のみに依存するレートを達成します。
追加の高次の用語は、この組み合わせと混合された一般的なチェーンの概念を組み合わせることで、幅広い問題の幅広い問題を満たすことができます。

要約(オリジナル)

In this work, we study statistical learning with dependent ($\beta$-mixing) data and square loss in a hypothesis class $\mathscr{F}\subset L_{\Psi_p}$ where $\Psi_p$ is the norm $\|f\|_{\Psi_p} \triangleq \sup_{m\geq 1} m^{-1/p} \|f\|_{L^m} $ for some $p\in [2,\infty]$. Our inquiry is motivated by the search for a sharp noise interaction term, or variance proxy, in learning with dependent data. Absent any realizability assumption, typical non-asymptotic results exhibit variance proxies that are deflated multiplicatively by the mixing time of the underlying covariates process. We show that whenever the topologies of $L^2$ and $\Psi_p$ are comparable on our hypothesis class $\mathscr{F}$ — that is, $\mathscr{F}$ is a weakly sub-Gaussian class: $\|f\|_{\Psi_p} \lesssim \|f\|_{L^2}^\eta$ for some $\eta\in (0,1]$ — the empirical risk minimizer achieves a rate that only depends on the complexity of the class and second order statistics in its leading term. Our result holds whether the problem is realizable or not and we refer to this as a \emph{near mixing-free rate}, since direct dependence on mixing is relegated to an additive higher order term. We arrive at our result by combining the above notion of a weakly sub-Gaussian class with mixed tail generic chaining. This combination allows us to compute sharp, instance-optimal rates for a wide range of problems. Examples that satisfy our framework include sub-Gaussian linear regression, more general smoothly parameterized function classes, finite hypothesis classes, and bounded smoothness classes.

arxiv情報

著者 Ingvar Ziemann,Stephen Tu,George J. Pappas,Nikolai Matni
発行日 2025-04-01 11:59:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML | Sharp Rates in Dependent Learning Theory: Avoiding Sample Size Deflation for the Square Loss はコメントを受け付けていません

Generative Data Assimilation of Sparse Weather Station Observations at Kilometer Scales

要約

天気予報モデルの初期化には、観測データの完全な大気状態へのデータ同化が不可欠です。
最近、モデルを再訓練せずに新しい入力データを使用できる深い生成データ同化の方法が提案されています。
また、運用上の地域気象モデルで使用される高価なデータ同化プロセスを劇的に加速することもできます。
ここでは、米国中央のテストベッドで、現実的に複雑なKMスケールの天候のコンテキストでのスコアベースのデータ同化の実行可能性を示します。
無条件の拡散モデルをトレーニングして、最先端のKMスケール分析製品のスナップショットを生成し、高解像度の迅速な更新を生成します。
次に、スコアベースのデータ同化を使用してまばらな気象観測所のデータを組み込み、モデルは降水量と地表風の地図を生成します。
生成されたフィールドは、突風フロントや感度テストなどの物理的にもっともらしい構造を表示し、多変量関係を通じて学習物理学を確認します。
予備的なスキル分析によると、このアプローチはすでに高解像度の迅速なリフレッシュシステム自体の素朴なベースラインを上回っています。
40の気象観測所からの観測を組み込むことにより、左翼ステーションの10%の低いRMSが達成されます。
アンサンブルDAの推定値を不十分に分散させるなどのいくつかの長引く不完全性にもかかわらず、結果は全体的に励みになる概念の証明であり、最初はKMスケールであることがわかります。
ますます野心的な地域の国家ジェネレーターを、その場、地上、および衛星のリモートセンシングデータストリームの増加を組み合わせた拡張機能を探索するのは熟した時期です。

要約(オリジナル)

Data assimilation of observational data into full atmospheric states is essential for weather forecast model initialization. Recently, methods for deep generative data assimilation have been proposed which allow for using new input data without retraining the model. They could also dramatically accelerate the costly data assimilation process used in operational regional weather models. Here, in a central US testbed, we demonstrate the viability of score-based data assimilation in the context of realistically complex km-scale weather. We train an unconditional diffusion model to generate snapshots of a state-of-the-art km-scale analysis product, the High Resolution Rapid Refresh. Then, using score-based data assimilation to incorporate sparse weather station data, the model produces maps of precipitation and surface winds. The generated fields display physically plausible structures, such as gust fronts, and sensitivity tests confirm learnt physics through multivariate relationships. Preliminary skill analysis shows the approach already outperforms a naive baseline of the High-Resolution Rapid Refresh system itself. By incorporating observations from 40 weather stations, 10% lower RMSEs on left-out stations are attained. Despite some lingering imperfections such as insufficiently disperse ensemble DA estimates, we find the results overall an encouraging proof of concept, and the first at km-scale. It is a ripe time to explore extensions that combine increasingly ambitious regional state generators with an increasing set of in situ, ground-based, and satellite remote sensing data streams.

arxiv情報

著者 Peter Manshausen,Yair Cohen,Peter Harrington,Jaideep Pathak,Mike Pritchard,Piyush Garg,Morteza Mardani,Karthik Kashinath,Simon Byrne,Noah Brenowitz
発行日 2025-04-01 12:48:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, J.2, physics.ao-ph | Generative Data Assimilation of Sparse Weather Station Observations at Kilometer Scales はコメントを受け付けていません

Calibration Strategies for Robust Causal Estimation: Theoretical and Empirical Insights on Propensity Score Based Estimators

要約

推定とキャリブレーションのためのデータのパーティション化は、逆確率重み付け(IPW)や二重/偏見の機械学習(DML)フレームワークなどの傾向スコアベースの推定器のパフォーマンスに重大な影響を与えます。
傾向スコアの推定のためのキャリブレーション技術の最近の進歩を拡大し、限られたオーバーラップ、小さなサンプルサイズ、または不均衡なデータなどの挑戦的な設定で傾向スコアの堅牢性を改善します。
私たちの貢献は2つあります。まず、DMLのコンテキストでの較正された推定器の特性の理論的分析を提供します。
この目的のために、有効な因果推論を確保するためのサンプル分割スキームの役割に特に重点を置いて、傾向スコアモデルの既存のキャリブレーションフレームワークを改良します。
第二に、広範なシミュレーションにより、校正が逆ベースの傾向スコア推定器の分散を減らしながら、小型サンプルのレジームであってもIPWのバイアスを軽減することを示します。
特に、キャリブレーションは、DMLの二重堅牢な特性を維持しながら、柔軟な学習者の安定性(勾配ブーストなど)を改善します。
重要な洞察は、キャリブレーションなしでメソッドがうまく機能する場合でも、適切なサンプル分割アプローチが選択されていれば、キャリブレーションステップを組み込むことはパフォーマンスを低下させないことです。

要約(オリジナル)

The partitioning of data for estimation and calibration critically impacts the performance of propensity score based estimators like inverse probability weighting (IPW) and double/debiased machine learning (DML) frameworks. We extend recent advances in calibration techniques for propensity score estimation, improving the robustness of propensity scores in challenging settings such as limited overlap, small sample sizes, or unbalanced data. Our contributions are twofold: First, we provide a theoretical analysis of the properties of calibrated estimators in the context of DML. To this end, we refine existing calibration frameworks for propensity score models, with a particular emphasis on the role of sample-splitting schemes in ensuring valid causal inference. Second, through extensive simulations, we show that calibration reduces variance of inverse-based propensity score estimators while also mitigating bias in IPW, even in small-sample regimes. Notably, calibration improves stability for flexible learners (e.g., gradient boosting) while preserving the doubly robust properties of DML. A key insight is that, even when methods perform well without calibration, incorporating a calibration step does not degrade performance, provided that an appropriate sample-splitting approach is chosen.

arxiv情報

著者 Jan Rabenseifner,Sven Klaassen,Jannis Kueck,Philipp Bach
発行日 2025-04-01 12:59:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, econ.EM, stat.ME, stat.ML | Calibration Strategies for Robust Causal Estimation: Theoretical and Empirical Insights on Propensity Score Based Estimators はコメントを受け付けていません

A stochastic gradient descent algorithm with random search directions

要約

確率的座標降下アルゴリズムは、現在の反復から値でほとんどの座標を修正し、残りの座標に関する目的をほぼ最小化することにより、各反復が得られる効率的な方法です。
ただし、このアプローチは通常、$ \ mathbb {r}^d $の標準基底ベクトルに制限されています。
この論文では、より一般的なランダムベクターに従って勾配推定の方向導関数を使用するランダム検索方向を備えた、確率勾配降下アルゴリズムの新しいクラスを開発します。
これらのアルゴリズムのほぼ確実な収束を確立し、ステップが減少します。
さらに、それらの中心的な制限定理を調査し、漸近共分散マトリックスに対する検索分布の影響を分析するために特に注意を払っています。
また、非症状の$ \ mathbb {l}^p $収束率も提供します。

要約(オリジナル)

Stochastic coordinate descent algorithms are efficient methods in which each iterate is obtained by fixing most coordinates at their values from the current iteration, and approximately minimizing the objective with respect to the remaining coordinates. However, this approach is usually restricted to canonical basis vectors of $\mathbb{R}^d$. In this paper, we develop a new class of stochastic gradient descent algorithms with random search directions which uses the directional derivative of the gradient estimate following more general random vectors. We establish the almost sure convergence of these algorithms with decreasing step. We further investigate their central limit theorem and pay particular attention to analyze the impact of the search distributions on the asymptotic covariance matrix. We also provide non-asymptotic $\mathbb{L}^p$ rates of convergence.

arxiv情報

著者 Eméric Gbaguidi
発行日 2025-04-01 13:10:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, math.OC, math.PR, stat.ML | A stochastic gradient descent algorithm with random search directions はコメントを受け付けていません

Optimization Insights into Deep Diagonal Linear Networks

要約

(確率的)勾配降下で訓練されたオーバーパラメーター化されたモデルは、現代の機械学習で遍在しています。
これらの大規模なモデルは、テストデータで前例のないパフォーマンスを実現しますが、その理論的理解はまだ限られています。
この論文では、最適化の観点を採用することにより、このギャップを埋めるための一歩を踏み出します。
より正確には、深い斜めのニューラルネットワークのパラメーターを推定するための勾配フロー「アルゴリズム」の暗黙的な正規化特性を研究します。
私たちの主な貢献は、この勾配の流れがモデルにミラーフローの動的を誘導することを示しています。つまり、ネットワークの初期化に応じて問題の特定の解に偏っています。
途中で、軌道のいくつかの特性を証明します。

要約(オリジナル)

Overparameterized models trained with (stochastic) gradient descent are ubiquitous in modern machine learning. These large models achieve unprecedented performance on test data, but their theoretical understanding is still limited. In this paper, we take a step towards filling this gap by adopting an optimization perspective. More precisely, we study the implicit regularization properties of the gradient flow ‘algorithm’ for estimating the parameters of a deep diagonal neural network. Our main contribution is showing that this gradient flow induces a mirror flow dynamic on the model, meaning that it is biased towards a specific solution of the problem depending on the initialization of the network. Along the way, we prove several properties of the trajectory.

arxiv情報

著者 Hippolyte Labarrière,Cesare Molinari,Lorenzo Rosasco,Silvia Villa,Cristian Vega
発行日 2025-04-01 13:13:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, math.OC, stat.ML | Optimization Insights into Deep Diagonal Linear Networks はコメントを受け付けていません