Pseudo-Asynchronous Local SGD: Robust and Efficient Data-Parallel Training

要約

AIスケーリングの傾向に続いて、フロンティアモデルはサイズが成長し続け、より大きなデータセットでトレーニングを続けています。
これらのモデルのトレーニングには、エクサスカーの計算リソースへの多額の投資が必要であり、それが分散した深い学習方法の開発を促進しました。
データの並列性は、トレーニングを高速化するための不可欠なアプローチですが、労働者間の頻繁な世界的なコミュニケーションが必要であり、最大のスケールでトレーニングをボトルネックすることができます。
この作業では、データ並列トレーニングの効率を向上させるために、擬似細胞性ローカルSGD(PALSGD)と呼ばれる方法を提案します。
PALSGDは、地元のSGD(Stich、2018)とDiloco(Douillard et al。、2023)の拡張であり、擬似同期メカニズムを導入することによりコミュニケーション頻度をさらに減らすように設計されています。
PALSGDでは、標準のローカルSGDと比較して、より長い同期間隔を使用できます。
通信頻度が低下しているにもかかわらず、擬似同期アプローチにより、モデルの一貫性が維持され、より頻繁な同期で達成されたものに匹敵するパフォーマンス結果につながります。
さらに、PALSGDの理論的分析を提供し、収束を確立し、収束率を導き出します。
この分析は、アルゴリズムの動作とパフォーマンスの保証に関する洞察を提供します。
画像分類と言語モデリングタスクに関するPALSGDを評価しました。
我々の結果は、PALSGDが分散データパラレル(DDP)やディロコなどの既存の方法と比較して、より短い時間でより良いパフォーマンスを達成することを示しています。
特に、PALSGDは、resNet-50を使用したImagenet-1KのDDPよりも18.4%高速で、GPT-NEO125Mの小さなストーリーではDDPよりも24.4%高速で、GPT-NEO-8Mを搭載した小さなストーリーでDDPよりも21.1%速い列車を訓練します。

要約(オリジナル)

Following AI scaling trends, frontier models continue to grow in size and continue to be trained on larger datasets. Training these models requires huge investments in exascale computational resources, which has in turn driven development of distributed deep learning methods. Data parallelism is an essential approach to speed up training, but it requires frequent global communication between workers, which can bottleneck training at the largest scales. In this work, we propose a method called Pseudo-Asynchronous Local SGD (PALSGD) to improve the efficiency of data-parallel training. PALSGD is an extension of Local SGD (Stich, 2018) and DiLoCo (Douillard et al., 2023), designed to further reduce communication frequency by introducing a pseudo-synchronization mechanism. PALSGD allows the use of longer synchronization intervals compared to standard Local SGD. Despite the reduced communication frequency, the pseudo-synchronization approach ensures that model consistency is maintained, leading to performance results comparable to those achieved with more frequent synchronization. Furthermore, we provide a theoretical analysis of PALSGD, establishing its convergence and deriving its convergence rate. This analysis offers insights into the algorithm’s behavior and performance guarantees. We evaluated PALSGD on image classification and language modeling tasks. Our results show that PALSGD achieves better performance in less time compared to existing methods like Distributed Data Parallel (DDP), and DiLoCo. Notably, PALSGD trains 18.4% faster than DDP on ImageNet-1K with ResNet-50, 24.4% faster than DDP on TinyStories with GPT-Neo125M, and 21.1% faster than DDP on TinyStories with GPT-Neo-8M.

arxiv情報

著者 Hiroki Naganuma,Xinzhi Zhang,Man-Chung Yue,Ioannis Mitliagkas,Philipp A. Witte,Russell J. Hewett,Yin Tat Lee
発行日 2025-04-25 16:06:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | Pseudo-Asynchronous Local SGD: Robust and Efficient Data-Parallel Training はコメントを受け付けていません

Generalization Guarantees for Multi-View Representation Learning and Application to Regularization via Gaussian Product Mixture Prior

要約

分散されたマルチビュー表現学習の問題を研究します。
この問題では、$ k $エージェントは、それぞれが異なる、おそらく統計的に相関している可能性があることを観察し、すべての$ k $表現を取得するデコーダーが非表示ラベルを正しく推定する方法で適切な表現を独立して抽出します。
エージェント間の明示的な調整がない場合、中心的な問題は、デコーダーでの正しい推定に必要かつ十分なビューから、各エージェントが何を抽出すべきかということです。
この論文では、一般化エラーの観点からこの質問を調査します。
まず、トレーニングと「テスト」データセットから抽出された表現の分布とデータ依存の対称事前、つまりすべてのビューとトレーニングとテストデータセットの潜在変数の最小説明長(MDL)との間の相対エントロピーの観点から、いくつかの一般化境界を確立します。
次に、取得した境界を使用して正規者を考案します。
適切な事前の選択の問題を詳細に調査してください。
特に、データ依存性のガウス混合物が賢明に選択された重量を伴うプリエアが良好なパフォーマンスにつながることを示す実験を示し、実施します。
シングルビュー設定(つまり、$ k = 1 $)の場合、実験結果は、既存の以前のART変動情報ボトルネック(VIB)およびカテゴリ依存性VIB(CDVIB)アプローチを上回ることが示されています。
興味深いことに、この設定では、加重注意メカニズムが自然に現れることを示しています。
最後に、マルチビュー設定では、ガウス製品の混合物としてのジョイントの選択が、各周辺ビューに対してガウス混合物の縁を誘導することを示し、エージェントが冗長性の特徴を抽出および出力することを暗黙的に奨励することを示します。

要約(オリジナル)

We study the problem of distributed multi-view representation learning. In this problem, $K$ agents observe each one distinct, possibly statistically correlated, view and independently extracts from it a suitable representation in a manner that a decoder that gets all $K$ representations estimates correctly the hidden label. In the absence of any explicit coordination between the agents, a central question is: what should each agent extract from its view that is necessary and sufficient for a correct estimation at the decoder? In this paper, we investigate this question from a generalization error perspective. First, we establish several generalization bounds in terms of the relative entropy between the distribution of the representations extracted from training and ‘test’ datasets and a data-dependent symmetric prior, i.e., the Minimum Description Length (MDL) of the latent variables for all views and training and test datasets. Then, we use the obtained bounds to devise a regularizer; and investigate in depth the question of the selection of a suitable prior. In particular, we show and conduct experiments that illustrate that our data-dependent Gaussian mixture priors with judiciously chosen weights lead to good performance. For single-view settings (i.e., $K=1$), our experimental results are shown to outperform existing prior art Variational Information Bottleneck (VIB) and Category-Dependent VIB (CDVIB) approaches. Interestingly, we show that a weighted attention mechanism emerges naturally in this setting. Finally, for the multi-view setting, we show that the selection of the joint prior as a Gaussians product mixture induces a Gaussian mixture marginal prior for each marginal view and implicitly encourages the agents to extract and output redundant features, a finding which is somewhat counter-intuitive.

arxiv情報

著者 Milad Sefidgaran,Abdellatif Zaidi,Piotr Krasnowski
発行日 2025-04-25 16:07:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.IT, cs.LG, math.IT, stat.ML | Generalization Guarantees for Multi-View Representation Learning and Application to Regularization via Gaussian Product Mixture Prior はコメントを受け付けていません

Discovering Governing Equations of Geomagnetic Storm Dynamics with Symbolic Regression

要約

地磁気の嵐は、太陽風の相互作用によって駆動される地球の磁気圏の大規模な乱れであり、宇宙ベースと地上ベースのインフラストラクチャに大きなリスクをもたらします。
妨害暴風雨(DST)インデックスは、グローバルな磁場変動を測定することにより、地磁気の嵐の強度を定量化します。
この研究では、DSTインデックスの時間的進化を記述するデータ駆動型方程式を導出するために、シンボリック回帰を適用します。
太陽風密度、バルク速度、対流電界、動的圧力、磁気圧力など、NASA Omniwebデータベースの履歴データを使用します。
進化的アルゴリズムベースのシンボリック回帰ライブラリであるPYSRフレームワークは、DDST/DTを主要な太陽風にリンクする数学的式を特定するために使用されます。
結果のモデルには、複雑さレベルの階層が含まれ、バートン-Mcpherron-RussellやO’Brien-McPherronモデルなどの確立された経験的モデルとの比較を可能にします。
最もパフォーマンスの高いシンボリック回帰モデルは、ほとんどの場合、特に中程度の地磁気の嵐の間、物理的な解釈性を維持しながら、優れた精度を示します。
歴史的な嵐のイベントに関するパフォーマンス評価には、2003年のハロウィーンストーム、2015年の聖パトリックデイストーム、2017年の中程度の嵐が含まれます。
結果は、DST進化における非線形依存性としきい値効果をキャプチャする解釈可能な閉じた式式を提供します。

要約(オリジナル)

Geomagnetic storms are large-scale disturbances of the Earth’s magnetosphere driven by solar wind interactions, posing significant risks to space-based and ground-based infrastructure. The Disturbance Storm Time (Dst) index quantifies geomagnetic storm intensity by measuring global magnetic field variations. This study applies symbolic regression to derive data-driven equations describing the temporal evolution of the Dst index. We use historical data from the NASA OMNIweb database, including solar wind density, bulk velocity, convective electric field, dynamic pressure, and magnetic pressure. The PySR framework, an evolutionary algorithm-based symbolic regression library, is used to identify mathematical expressions linking dDst/dt to key solar wind. The resulting models include a hierarchy of complexity levels and enable a comparison with well-established empirical models such as the Burton-McPherron-Russell and O’Brien-McPherron models. The best-performing symbolic regression models demonstrate superior accuracy in most cases, particularly during moderate geomagnetic storms, while maintaining physical interpretability. Performance evaluation on historical storm events includes the 2003 Halloween Storm, the 2015 St. Patrick’s Day Storm, and a 2017 moderate storm. The results provide interpretable, closed-form expressions that capture nonlinear dependencies and thresholding effects in Dst evolution.

arxiv情報

著者 Stefano Markidis,Jonah Ekelund,Luca Pennati,Andong Hu,Ivy Peng
発行日 2025-04-25 16:14:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CE, cs.LG | Discovering Governing Equations of Geomagnetic Storm Dynamics with Symbolic Regression はコメントを受け付けていません

RandALO: Out-of-sample risk estimation in no time flat

要約

大規模な高次元データセットでトレーニングされたモデルのサンプル外のリスクを推定することは、機械学習プロセスの高価で不可欠な部分であり、実践者がハイパーパラメーターを最適に調整できるようにします。
相互検証(CV)は、リスク推定の事実上の基準として機能しますが、計算コスト(休暇1-out CV)に対して高バイアス($ k $ fold CV)との取引は不十分です。
高次元でのリスクの一貫した推定器であるだけでなく、$ k $ -fold CVよりも計算上の少ないリスクの一貫した推定量であるランダム化の近似休暇(Randalo)リスク推定器を提案します。
合成データと実際のデータに関する広範なシミュレーションで主張をサポートし、Randaloおよびhttps://github.com/cvxgrp/randaloとしてPypiで利用可能なRandaloを実装するユーザーフレンドリーなPythonパッケージを提供します。

要約(オリジナル)

Estimating out-of-sample risk for models trained on large high-dimensional datasets is an expensive but essential part of the machine learning process, enabling practitioners to optimally tune hyperparameters. Cross-validation (CV) serves as the de facto standard for risk estimation but poorly trades off high bias ($K$-fold CV) for computational cost (leave-one-out CV). We propose a randomized approximate leave-one-out (RandALO) risk estimator that is not only a consistent estimator of risk in high dimensions but also less computationally expensive than $K$-fold CV. We support our claims with extensive simulations on synthetic and real data and provide a user-friendly Python package implementing RandALO available on PyPI as randalo and at https://github.com/cvxgrp/randalo.

arxiv情報

著者 Parth Nobel,Daniel LeJeune,Emmanuel J. Candès
発行日 2025-04-25 16:33:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, math.OC, math.ST, stat.CO, stat.ML, stat.TH | RandALO: Out-of-sample risk estimation in no time flat はコメントを受け付けていません

Structure Learning in Gaussian Graphical Models from Glauber Dynamics

要約

ガウスグラフィカルモデルの選択は、生物学的ネットワークモデリング、金融ネットワークモデリング、ソーシャルネットワーク分析など、多数のアプリケーションを備えた重要なパラダイムです。
従来のアプローチでは、独立した同一に分散された(I.I.D)サンプルへのアクセスを想定しています。これは、実際のシナリオでは非現実的なものです。
この論文では、Glauber Dynamicsとして知られる、より現実的な依存性確率プロセスからの観察下でのガウスグラフィカルモデルの選択について説明します。
Gibbsサンプラーとも呼ばれるGlauber Dynamicsは、残りのモデルの統計に基づいて、基礎となるモデルの変数を順次更新するマルコフチェーンです。
このようなモデルは、複雑な多変量分布からサンプルを生成するために頻繁に採用されることを除けば、ソーシャルネットワークでの意見コンセンサスや財務ネットワークのクリア/在庫価格のダイナミクスなど、さまざまな設定で自然に発生します。
既存の作業の広範な本文とは対照的に、Glauberダイナミクスに従ってデータがサンプリングされた場合、ガウスグラフィカルモデル選択の最初のアルゴリズムを提示します。
提案されたアルゴリズムの構造学習パフォーマンスの計算的および統計的複雑さに関する理論的保証を提供します。
さらに、統計的複雑さに関する情報理論の下限を提供し、アルゴリズムが広範なクラスの問題に最適であることを示しています。

要約(オリジナル)

Gaussian graphical model selection is an important paradigm with numerous applications, including biological network modeling, financial network modeling, and social network analysis. Traditional approaches assume access to independent and identically distributed (i.i.d) samples, which is often impractical in real-world scenarios. In this paper, we address Gaussian graphical model selection under observations from a more realistic dependent stochastic process known as Glauber dynamics. Glauber dynamics, also called the Gibbs sampler, is a Markov chain that sequentially updates the variables of the underlying model based on the statistics of the remaining model. Such models, aside from frequently being employed to generate samples from complex multivariate distributions, naturally arise in various settings, such as opinion consensus in social networks and clearing/stock-price dynamics in financial networks. In contrast to the extensive body of existing work, we present the first algorithm for Gaussian graphical model selection when data are sampled according to the Glauber dynamics. We provide theoretical guarantees on the computational and statistical complexity of the proposed algorithm’s structure learning performance. Additionally, we provide information-theoretic lower bounds on the statistical complexity and show that our algorithm is nearly minimax optimal for a broad class of problems.

arxiv情報

著者 Vignesh Tirukkonda,Anirudh Rayas,Gautam Dasarathy
発行日 2025-04-25 16:45:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML | Structure Learning in Gaussian Graphical Models from Glauber Dynamics はコメントを受け付けていません

Eval-PPO: Building an Efficient Threat Evaluator Using Proximal Policy Optimization

要約

さまざまなゲームシナリオでは、複数の敵ユニットから固定数のターゲットを選択することは非常に困難な作業です。
この困難は、敵ユニットの脅威レベルとその特徴特性との間の複雑な関係に起因し、ルールベースの評価者の設計を複雑にします。
さらに、従来の監視された学習方法は、この脅威評価の問題に適用されたときに、トレーニング中に明示的なラベルが不足しているという課題に直面しています。
この研究では、脅威評価の問題を強化学習タスクとして再定義し、近位ポリシー最適化(PPO)アルゴリズムに基づいて、効率的な評価者トレーニングアルゴリズムである評価PPOを導入します。
Eval-PPOは、体系的なトレーニングを通じて、多次元の敵の機能と友好ユニットの状態情報を統合し、それにより正確な脅威評価を達成します。
ルールベースの方法と比較して、Eval-PPOは平均成功率の大幅な改善を示し、17.84%増加しています。

要約(オリジナル)

In various game scenarios, selecting a fixed number of targets from multiple enemy units is an extremely challenging task. This difficulty stems from the complex relationship between the threat levels of enemy units and their feature characteristics, which complicates the design of rule-based evaluators. Moreover, traditional supervised learning methods face the challenge of lacking explicit labels during training when applied to this threat evaluation problem. In this study, we redefine the threat evaluation problem as a reinforcement learning task and introduce an efficient evaluator training algorithm, Eval-PPO, based on the Proximal Policy Optimization (PPO) algorithm. Eval-PPO integrates multidimensional enemy features and the state information of friendly units through systematic training, thereby achieving precise threat assessment. Compared with rule-based methods, Eval-PPO demonstrates a significant improvement in average success rate, with an increase of 17.84%.

arxiv情報

著者 Wuzhou Sun,Siyi Li,Qingxiang Zou,Zixing Liao
発行日 2025-04-25 16:47:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | Eval-PPO: Building an Efficient Threat Evaluator Using Proximal Policy Optimization はコメントを受け付けていません

Enhancing Visual Interpretability and Explainability in Functional Survival Trees and Forests

要約

機能生存モデルは、機能的または高次元の入力など、複雑な予測因子を使用してイベントまでの時間データを分析するための重要なツールです。
予測強度にもかかわらず、これらのモデルはしばしば解釈可能性を欠いており、実際の意思決定とリスク分析における価値を制限します。
この研究では、2つの重要な生存モデルを調査します。機能的生存ツリー(FST)と機能的ランダム生存林(FRSF)です。
FSTモデルの解釈可能性を高め、FRSFアンサンブルの説明可能性を向上させるための新しい方法とツールを導入します。
実際のデータセットとシミュレートされたデータセットの両方を使用して、提案されたアプローチがモデルアンサンブルの基礎となる意思決定プロセスを正確にキャプチャする効率的で理解しやすい意思決定ツリーを生成することを示しています。

要約(オリジナル)

Functional survival models are key tools for analyzing time-to-event data with complex predictors, such as functional or high-dimensional inputs. Despite their predictive strength, these models often lack interpretability, which limits their value in practical decision-making and risk analysis. This study investigates two key survival models: the Functional Survival Tree (FST) and the Functional Random Survival Forest (FRSF). It introduces novel methods and tools to enhance the interpretability of FST models and improve the explainability of FRSF ensembles. Using both real and simulated datasets, the results demonstrate that the proposed approaches yield efficient, easy-to-understand decision trees that accurately capture the underlying decision-making processes of the model ensemble.

arxiv情報

著者 Giuseppe Loffredo,Elvira Romano,Fabrizio MAturo
発行日 2025-04-25 17:11:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 62G05, 62G08, 62H30, 62J99, 62N02, 62P10, cs.LG, G.3, stat.ME, stat.ML | Enhancing Visual Interpretability and Explainability in Functional Survival Trees and Forests はコメントを受け付けていません

Action-Minimization Meets Generative Modeling: Efficient Transition Path Sampling with the Onsager-Machlup Functional

要約

エネルギー環境上の2つのポイントを接続する可能性のあるパスを見つけることを伴うトランジションパスサンプリング(TPS)は、実際の原子システムの複雑さのために依然として課題です。
現在の機械学習アプローチでは、高価でタスク固有の、データのないトレーニング手順を使用し、高品質のデータセットや大規模な事前訓練モデルなど、最近の原子的機械学習における最近の進歩から利益を得る能力を制限します。
この作業では、候補パスを、事前に訓練された生成モデルの学習スコア関数によって誘導される確率的ダイナミクスからサンプリングされた軌跡として解釈することによりTPSに対処します。
これらのダイナミクスの下では、高尤度の遷移パスを見つけることは、OnSager-Machlup(OM)アクション機能を最小限に抑えることと同等になります。
これにより、以前の作業で訓練されたオーダーメイドのタスク固有のTPSモデルとは対照的に、TPSの事前に訓練された生成モデルをゼロショット方法で再利用できます。
さまざまな分子システムに関するアプローチを実証し、多様で物理的に現実的な遷移経路を取得し、事前に訓練されたモデルの元のトレーニングデータセットを超えて一般化します。
私たちの方法は、新しい生成モデルに簡単に組み込むことができ、モデルがデータの可用性を向上させて拡大し、改善し続けるにつれて実質的に関連性があります。

要約(オリジナル)

Transition path sampling (TPS), which involves finding probable paths connecting two points on an energy landscape, remains a challenge due to the complexity of real-world atomistic systems. Current machine learning approaches use expensive, task-specific, and data-free training procedures, limiting their ability to benefit from recent advances in atomistic machine learning, such as high-quality datasets and large-scale pre-trained models. In this work, we address TPS by interpreting candidate paths as trajectories sampled from stochastic dynamics induced by the learned score function of pre-trained generative models, specifically denoising diffusion and flow matching. Under these dynamics, finding high-likelihood transition paths becomes equivalent to minimizing the Onsager-Machlup (OM) action functional. This enables us to repurpose pre-trained generative models for TPS in a zero-shot manner, in contrast with bespoke, task-specific TPS models trained in previous work. We demonstrate our approach on varied molecular systems, obtaining diverse, physically realistic transition pathways and generalizing beyond the pre-trained model’s original training dataset. Our method can be easily incorporated into new generative models, making it practically relevant as models continue to scale and improve with increased data availability.

arxiv情報

著者 Sanjeev Raja,Martin Šípka,Michael Psenka,Tobias Kreiman,Michal Pavelka,Aditi S. Krishnapriyan
発行日 2025-04-25 17:17:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cond-mat.mtrl-sci, cs.LG, physics.chem-ph, q-bio.BM | Action-Minimization Meets Generative Modeling: Efficient Transition Path Sampling with the Onsager-Machlup Functional はコメントを受け付けていません

PODNO: Proper Orthogonal Decomposition Neural Operators

要約

この論文では、高周波成分が支配する部分微分方程式(PDE)を解くために、適切な直交分解神経演算子(PODNO)を紹介します。
フーリエ神経演算子(FNO)の構造に基づいて、Podnoはフーリエ変換を、適切な直交分解(POD)メソッドから派生した(逆)オルソーマル変換に置き換えて、積分カーネルを構築します。
PODベースの最適性により、Podnoは高周波問題の精度と計算効率の両方でFNOを上回る可能性があります。
分析の観点から、一般化スペクトル演算子(GSO)と呼ばれるPodnoの一般化の普遍性を確立しました。
さらに、非線形Schrodinger(NLS)方程式やKadomtsev-Petviashvili(KP)方程式などの分散方程式について、Podnoのパフォーマンスを数値的に評価します。

要約(オリジナル)

In this paper, we introduce Proper Orthogonal Decomposition Neural Operators (PODNO) for solving partial differential equations (PDEs) dominated by high-frequency components. Building on the structure of Fourier Neural Operators (FNO), PODNO replaces the Fourier transform with (inverse) orthonormal transforms derived from the Proper Orthogonal Decomposition (POD) method to construct the integral kernel. Due to the optimality of POD basis, the PODNO has potential to outperform FNO in both accuracy and computational efficiency for high-frequency problems. From analysis point of view, we established the universality of a generalization of PODNO, termed as Generalized Spectral Operator (GSO). In addition, we evaluate PODNO’s performance numerically on dispersive equations such as the Nonlinear Schrodinger (NLS) equation and the Kadomtsev-Petviashvili (KP) equation.

arxiv情報

著者 Zilan Cheng,Zhongjian Wang,Li-Lian Wang,Mejdi Azaiez
発行日 2025-04-25 17:30:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 41A35, 65M12, 65N99, 68T07, cs.LG, cs.NA, math.NA, physics.comp-ph | PODNO: Proper Orthogonal Decomposition Neural Operators はコメントを受け付けていません

Intelligent Attacks and Defense Methods in Federated Learning-enabled Energy-Efficient Wireless Networks

要約

Federated Learning(FL)は、分散型の実装機能のおかげで、ワイヤレスネットワークでの学習ベースの機能の有望な手法です。
一方、分散学習は、ローカルモデルへの攻撃がパラメーター交換によって他のモデルに広がる可能性がある悪意のある攻撃への暴露のリスクを高める可能性があります。
一方、このような攻撃は、動的なワイヤレス環境のために検出するのが難しい場合があります。特に、ローカルモデルは非独立性で同一に分布した(非IID)データで不均一である可能性があることを考慮してください。
したがって、悪意のある攻撃の効果を評価し、FL対応のワイヤレスネットワークの高度な防御技術を開発することが重要です。
この作業では、ネットワークのエネルギー効率を高めるフェデレートディープ強化学習ベースの細胞睡眠制御シナリオを紹介します。
学習ベースのアプローチを対象とした複数のインテリジェントな攻撃を提案し、そのような攻撃を緩和するための防御方法を提案します。
特に、2つの攻撃モデル、Generative Anversarial Network(GAN)強化モデル中毒攻撃と正規化ベースのモデル中毒攻撃を設計しました。
対抗として、2つの防御スキーム、自動エンコーダーベースの防御、および知識蒸留(KD)対応防御を提案しました。
自動エンコーダーベースの防御方法は、自動エンコーダーを活用して悪意のある参加者を識別し、グローバルな集約中に良性ローカルモデルのパラメーターのみを集計しますが、KDベースの防御は、グローバルモデルとローカルモデル間で転送される知識を制御することにより攻撃からモデルを保護します。

要約(オリジナル)

Federated learning (FL) is a promising technique for learning-based functions in wireless networks, thanks to its distributed implementation capability. On the other hand, distributed learning may increase the risk of exposure to malicious attacks where attacks on a local model may spread to other models by parameter exchange. Meanwhile, such attacks can be hard to detect due to the dynamic wireless environment, especially considering local models can be heterogeneous with non-independent and identically distributed (non-IID) data. Therefore, it is critical to evaluate the effect of malicious attacks and develop advanced defense techniques for FL-enabled wireless networks. In this work, we introduce a federated deep reinforcement learning-based cell sleep control scenario that enhances the energy efficiency of the network. We propose multiple intelligent attacks targeting the learning-based approach and we propose defense methods to mitigate such attacks. In particular, we have designed two attack models, generative adversarial network (GAN)-enhanced model poisoning attack and regularization-based model poisoning attack. As a counteraction, we have proposed two defense schemes, autoencoder-based defense, and knowledge distillation (KD)-enabled defense. The autoencoder-based defense method leverages an autoencoder to identify the malicious participants and only aggregate the parameters of benign local models during the global aggregation, while KD-based defense protects the model from attacks by controlling the knowledge transferred between the global model and local models.

arxiv情報

著者 Han Zhang,Hao Zhou,Medhat Elsayed,Majid Bavand,Raimundas Gaigalas,Yigit Ozcan,Melike Erol-Kantarci
発行日 2025-04-25 17:40:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | Intelligent Attacks and Defense Methods in Federated Learning-enabled Energy-Efficient Wireless Networks はコメントを受け付けていません