Measurability in the Fundamental Theorem of Statistical Learning

要約

統計学習の基本的な定理は、VCの次元が有限である場合にのみ、仮説スペースはPAC学習可能であると述べています。
PAC学習の不可知論的モデルについては、これまでのところ、この定理の証拠を提示し、関係するセットと機能にいくつかの測定可能性の仮定を暗黙のうちに課しています。
厳密な議論に必要な仮定を明示的に抽出するために、これらの証明を測定理論の観点から精査します。
これは、健全な声明と、不可知論的環境での統計学習の基本的な定理の詳細かつ自己完結型の証明につながり、必要な最小限の測定可能性要件を紹介します。
統計学習の基本的な定理は、広範囲のさらなる理論的発展を支えているため、我々の結果は基本的な重要性があります。特に、測定性の微妙さが役割を果たす設定で定理が使用される場合、測定可能性の側面の慎重な分析が不可欠です。
NIPおよびOミニマル構造を考慮して、モデル理論のアプリケーションについて特に説明します。
私たちの主要な定理は、現実のO最小拡張よりも定義された仮説スペースのPAC学習性に十分な条件を提示します。
このクラスの仮説スペースは、ReluやSigmoid関数などの一般的に使用される活性化関数を使用するバイナリ分類のために、すべての人工ニューラルネットワークをカバーしています。

要約(オリジナル)

The Fundamental Theorem of Statistical Learning states that a hypothesis space is PAC learnable if and only if its VC dimension is finite. For the agnostic model of PAC learning, the literature so far presents proofs of this theorem that often tacitly impose several measurability assumptions on the involved sets and functions. We scrutinize these proofs from a measure-theoretic perspective in order to explicitly extract the assumptions needed for a rigorous argument. This leads to a sound statement as well as a detailed and self-contained proof of the Fundamental Theorem of Statistical Learning in the agnostic setting, showcasing the minimal measurability requirements needed. As the Fundamental Theorem of Statistical Learning underpins a wide range of further theoretical developments, our results are of foundational importance: A careful analysis of measurability aspects is essential, especially when the theorem is used in settings where measure-theoretic subtleties play a role. We particularly discuss applications in Model Theory, considering NIP and o-minimal structures. Our main theorem presents sufficient conditions for the PAC learnability of hypothesis spaces defined over o-minimal expansions of the reals. This class of hypothesis spaces covers all artificial neural networks for binary classification that use commonly employed activation functions like ReLU and the sigmoid function.

arxiv情報

著者 Lothar Sebastian Krapp,Laura Wirth
発行日 2025-04-28 14:50:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: (Primary), 03C64, 03C98, 12J15, 28A20, 68T27, cs.LG, cs.LO, math.LO, math.PR, secondary, stat.ML | Measurability in the Fundamental Theorem of Statistical Learning はコメントを受け付けていません

Multi-Source Urban Traffic Flow Forecasting with Drone and Loop Detector Data

要約

トラフィック予測は輸送研究の基本的なタスクですが、現在の研究の範囲は主にループ検出器の単一のデータモダリティに焦点を当てています。
最近、人工知能とドローン技術の進歩により、都市交通の効率的で正確で柔軟な空中観測のための新しいソリューションが可能になりました。
有望なトラフィック監視アプローチとして、ドローンキャプチャされたデータは、既存のインフラストラクチャと組み合わせると、大規模な都市ネットワークの正確なマルチセンサーモビリティ天文台を作成できます。
したがって、このペーパーでは、ドローンとループ検出器のデータを使用して、マルチソースのトラフィック速度予測の問題を同時に調査します。
複数のデータモダリティを統合し、時空間相関を学習するために、シンプルで効果的なグラフベースのモデルHIMSNETが提案されています。
詳細な分析によると、特に重い混雑とさまざまなトラフィックダイナミクスを備えた高デマンドシナリオの下で、正確なセグメントレベルの速度を予測することは、地域の速度よりも困難です。
ドローンとループの両方の検出器データの両方を利用すると、センサーのカバレッジが低く、ノイズの影響を受ける場合、シングルモダリティケースと比較して予測精度を改善できます。
実際の都市道路網の車両軌道に基づく私たちのシミュレーション研究は、トラフィックの予測と監視にドローンを統合することの付加価値を強調しています。

要約(オリジナル)

Traffic forecasting is a fundamental task in transportation research, however the scope of current research has mainly focused on a single data modality of loop detectors. Recently, the advances in Artificial Intelligence and drone technologies have made possible novel solutions for efficient, accurate and flexible aerial observations of urban traffic. As a promising traffic monitoring approach, drone-captured data can create an accurate multi-sensor mobility observatory for large-scale urban networks, when combined with existing infrastructure. Therefore, this paper investigates the problem of multi-source traffic speed prediction, simultaneously using drone and loop detector data. A simple yet effective graph-based model HiMSNet is proposed to integrate multiple data modalities and learn spatio-temporal correlations. Detailed analysis shows that predicting accurate segment-level speed is more challenging than the regional speed, especially under high-demand scenarios with heavier congestions and varying traffic dynamics. Utilizing both drone and loop detector data, the prediction accuracy can be improved compared to single-modality cases, when the sensors have lower coverages and are subject to noise. Our simulation study based on vehicle trajectories in a real urban road network has highlighted the added value of integrating drones in traffic forecasting and monitoring.

arxiv情報

著者 Weijiang Xiong,Robert Fonod,Alexandre Alahi,Nikolas Geroliminis
発行日 2025-04-28 15:28:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | Multi-Source Urban Traffic Flow Forecasting with Drone and Loop Detector Data はコメントを受け付けていません

Convergence Analysis of Asynchronous Federated Learning with Gradient Compression for Non-Convex Optimization

要約

グラジエント圧縮は、連邦学習(FL)の通信コストを削減するための効果的な手法であり、通常、圧縮エラーを改善するためにエラーフィードバック(EF)が採用されます。
ただし、非同期FLのこれらの手法に関する体系的な研究が不足しています。
この論文では、さまざまなフレームワークの下でFLの収束挙動を分析することにより、このギャップを埋めます。
まず、基本的な非同期FLフレームワークASYNFLを検討し、より少ない仮定に依存し、以前の研究よりも優れた収束率を生成する改善された収束分析を提供します。
次に、勾配圧縮Asynflcを備えたバリアントフレームワークを検討します。
非同期遅延と圧縮速度との相互作用を示していることを示す最適なものへの収束に十分な条件を示します。
また、私たちの分析は、非同期遅延が圧縮によって引き起こされる分散を増幅し、それによって収束を妨げることを示しており、そのような影響は高いデータの不均一性によって悪化します。
さらに、EFをさらに統合するフレームワークであるAsynflc-EFの収束を研究します。
非同期遅延にもかかわらず、EFは勾配推定の分散を効果的に減らすことができることを証明します。これにより、Asynflc-EFはASYNFLの収束速度と一致する可能性があります。
また、EFに対する非同期遅延の影響は、高次の収束項を遅くすることに限定されていることを示しています。
実験結果は、分析結果を非常によく実証しています。

要約(オリジナル)

Gradient compression is an effective technique for reducing communication costs in federated learning (FL), and error feedback (EF) is usually adopted to remedy the compression errors. However, there remains a lack of systematic study on these techniques in asynchronous FL. In this paper, we fill this gap by analyzing the convergence behaviors of FL under different frameworks. We firstly consider a basic asynchronous FL framework AsynFL, and provide an improved convergence analysis that relies on fewer assumptions and yields a superior convergence rate than prior studies. Then, we consider a variant framework with gradient compression, AsynFLC. We show sufficient conditions for its convergence to the optimum, indicating the interaction between asynchronous delay and compression rate. Our analysis also demonstrates that asynchronous delay amplifies the variance caused by compression, thereby hindering convergence, and such an impact is exacerbated by high data heterogeneity. Furthermore, we study the convergence of AsynFLC-EF, the framework that further integrates EF. We prove that EF can effectively reduce the variance of gradient estimation despite asynchronous delay, which enables AsynFLC-EF to match the convergence rate of AsynFL. We also show that the impact of asynchronous delay on EF is limited to slowing down the higher-order convergence term. Experimental results substantiate our analytical findings very well.

arxiv情報

著者 Diying Yang,Yingwei Hou,Danyang Xiao,Weigang Wu
発行日 2025-04-28 15:35:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | Convergence Analysis of Asynchronous Federated Learning with Gradient Compression for Non-Convex Optimization はコメントを受け付けていません

A Realistic Simulation Framework for Analog/Digital Neuromorphic Architectures

要約

極端なエッジコンピューティングアプリケーションでのリアルタイムの感覚処理のために最適化された専用の混合神経型コンピューティングシステムの開発には、時間のかかる設計、製造、およびフルカスタム神経型プロセッサの展開が必要です。
さまざまなネットワークアーキテクチャとパラメーター設定のプロパティを調査するために、初期のプロトタイピングの取り組みを確保するには、現実的な結果につながるため、最終ハードウェアのプロパティに可能な限り一致するシミュレーションフレームワークを使用することが重要です。
これは、コンポーネントの変動性とノイズ感度のため、混合シグナルアナログ/デジタルサーキットを使用して作成された神経形態のハードウェアプラットフォームにとって特に困難です。
このホワイトペーパーでは、デバイスの不一致の変動を含む混合シグナル神経型回路の特性を説明するように明示的に設計されたソフトウェアスパイクニューラルネットワークシミュレーターを開発することにより、この課題に対処します。
Arcana(アナログ/デジタルニューロモルフィックアーキテクチャの現実的なシミュレーションフレームワーク)と呼ばれるシミュレーターは、パラメーターの最適化とGPU加速のための自己妥当な分化を備えた混合シナールシナプスとニューロンの電子回路のダイナミクスを再現するように設計されています。
ソフトウェアシミュレーションの結果を既存の神経形成プロセッサから作られた測定と一致させることにより、このアプローチの有効性を実証します。
得られた結果が、ハードウェアに展開された後、ソフトウェアでトレーニングされたスパイクニューラルネットワークの動作の信頼できる推定値をどのように提供するかを示します。
このフレームワークにより、新しい学習ルールの開発と革新と、神経型埋め込みシステムの処理アーキテクチャが可能になります。

要約(オリジナル)

Developing dedicated mixed-signal neuromorphic computing systems optimized for real-time sensory-processing in extreme edge-computing applications requires time-consuming design, fabrication, and deployment of full-custom neuromorphic processors. To ensure that initial prototyping efforts, exploring the properties of different network architectures and parameter settings, lead to realistic results, it is important to use simulation frameworks that match as best as possible the properties of the final hardware. This is particularly challenging for neuromorphic hardware platforms made using mixed-signal analog/digital circuits, due to the variability and noise sensitivity of their components. In this paper, we address this challenge by developing a software spiking neural network simulator explicitly designed to account for the properties of mixed-signal neuromorphic circuits, including device mismatch variability. The simulator, called ARCANA (A Realistic Simulation Framework for Analog/Digital Neuromorphic Architectures), is designed to reproduce the dynamics of mixed-signal synapse and neuron electronic circuits with autogradient differentiation for parameter optimization and GPU acceleration. We demonstrate the effectiveness of this approach by matching software simulation results with measurements made from an existing neuromorphic processor. We show how the results obtained provide a reliable estimate of the behavior of the spiking neural network trained in software, once deployed in hardware. This framework enables the development and innovation of new learning rules and processing architectures in neuromorphic embedded systems.

arxiv情報

著者 Fernando M. Quintana,Maryada,Pedro L. Galindo,Elisa Donati,Giacomo Indiveri,Fernando Perez-Peña
発行日 2025-04-28 15:37:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AR, cs.LG, cs.NE | A Realistic Simulation Framework for Analog/Digital Neuromorphic Architectures はコメントを受け付けていません

Accelerating Mixture-of-Experts Training with Adaptive Expert Replication

要約

Experts(MOE)の混合モデルは、コンピューティングを対応する線形増加なしにモデルサイズをスケーリングし続けるために、広く採用されたソリューションになりました。
MOEモデルトレーニング中、各入力トークンは、各トランス層内の専門家のサブセット(まばらに作動するフィードフォワードネットワーク)のサブセットに動的にルーティングされます。
各専門家に割り当てられたトークンの分布は、トレーニングの過程で大きく迅速に異なります。
専門家間の幅広い負荷の不均衡を処理するために、現在のシステムは、人気のある専門家に割り当てられたトークンをドロップし、収束を分解する、または人気に基づいて各専門家に割り当てられた頻繁にリバランスリソースを頻繁にリバランスすることを余儀なくされ、高い状態移行オーバーヘッドが発生します。
このパフォーマンスのアクセラシーのトレードオフを破るために、適応型MOEトレーニングシステムであるSwiftMoeを紹介します。
SwiftMoeの重要な洞察は、大規模なオプティマイザー状態からの専門家パラメーターの配置を分離することです。
Swiftmoeは、すべてのトレーニングノードにわたって各専門家のオプティマイザーを静的に分割します。
一方、SwiftMoeは、既存の重量の更新を再利用して、移行オーバーヘッドを回避することにより、専門家のパラメーターの配置を動的に調整します。
そうすることで、SwiftMoeは、適格ごとに各専門家に割り当てられたGPUリソ​​ースを最小限のオーバーヘッドで右サイズにサイズします。
SwiftMoeは、最先端のMOEトレーニングシステム、Deepspeed、FlexMoeと比較して、それぞれ30.5%と25.9%の時間を速くすることができます。

要約(オリジナル)

Mixture-of-Experts (MoE) models have become a widely adopted solution to continue scaling model sizes without a corresponding linear increase in compute. During MoE model training, each input token is dynamically routed to a subset of experts — sparsely-activated feed-forward networks — within each transformer layer. The distribution of tokens assigned to each expert varies widely and rapidly over the course of training. To handle the wide load imbalance across experts, current systems are forced to either drop tokens assigned to popular experts, degrading convergence, or frequently rebalance resources allocated to each expert based on popularity, incurring high state migration overheads. To break this performance-accuracy tradeoff, we introduce SwiftMoE, an adaptive MoE training system. The key insight of SwiftMoE is to decouple the placement of expert parameters from their large optimizer state. SwiftMoE statically partitions the optimizer of each expert across all training nodes. Meanwhile, SwiftMoE dynamically adjusts the placement of expert parameters by repurposing existing weight updates, avoiding migration overheads. In doing so, SwiftMoE right-sizes the GPU resources allocated to each expert, on a per-iteration basis, with minimal overheads. Compared to state-of-the-art MoE training systems, DeepSpeed and FlexMoE, SwiftMoE is able to achieve a 30.5% and 25.9% faster time-to-convergence, respectively.

arxiv情報

著者 Athinagoras Skiadopoulos,Mark Zhao,Swapnil Gandhi,Thomas Norrie,Shrijeet Mukherjee,Christos Kozyrakis
発行日 2025-04-28 15:58:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.DC, cs.LG | Accelerating Mixture-of-Experts Training with Adaptive Expert Replication はコメントを受け付けていません

Keep your distance: learning dispersed embeddings on $\mathbb{S}_d$

要約

多くの機械学習アプリケーションにとって、テキストや画像の埋め込みなど、高次元空間でよく分離された機能を学習することが重要です。
このような分離を達成することは、無関係なベクターが可能な限り引き離される埋め込みの分散を通じて効果的に達成できます。
特徴をhypersphereに制約することにより、分散を数学と物理学の適切な問題に結びつけることができます。
ただし、表現学習では、通常、高次元空間の多数の機能を扱い、さらに、分散は通常、他のタスク指向のトレーニング目標と交換され、既存の理論的および数値ソリューションが適用できなくなります。
したがって、通常はペアワイズ距離の何らかの関数を最小化することにより、分散を促進するために勾配ベースの方法に依存することが一般的です。
この作業では、最初に切断された文献から既存の方法の概要を示し、新しいつながりを作り、類似点を強調します。
次に、いくつかの新しい角度を紹介します。
最大平均不一致(MMD)の動機を使用して、ペアワイズ分散を再解釈することを提案します。
次に、一般的なドメインに分散するための効果的な代替器として、有名なロイドのアルゴリズムであるK-Meansの名声のオンラインバリアントを提案します。
最後に、ハイパー球の特性を直接悪用する新しい分散法を導き出します。
私たちの実験は、画像分類と自然言語処理タスクにおける分散の重要性と、アルゴリズムがさまざまな体制で異なるトレードオフを示す方法を示しています。

要約(オリジナル)

Learning well-separated features in high-dimensional spaces, such as text or image embeddings, is crucial for many machine learning applications. Achieving such separation can be effectively accomplished through the dispersion of embeddings, where unrelated vectors are pushed apart as much as possible. By constraining features to be on a hypersphere, we can connect dispersion to well-studied problems in mathematics and physics, where optimal solutions are known for limited low-dimensional cases. However, in representation learning we typically deal with a large number of features in high-dimensional space, and moreover, dispersion is usually traded off with some other task-oriented training objective, making existing theoretical and numerical solutions inapplicable. Therefore, it is common to rely on gradient-based methods to encourage dispersion, usually by minimizing some function of the pairwise distances. In this work, we first give an overview of existing methods from disconnected literature, making new connections and highlighting similarities. Next, we introduce some new angles. We propose to reinterpret pairwise dispersion using a maximum mean discrepancy (MMD) motivation. We then propose an online variant of the celebrated Lloyd’s algorithm, of K-Means fame, as an effective alternative regularizer for dispersion on generic domains. Finally, we derive a novel dispersion method that directly exploits properties of the hypersphere. Our experiments show the importance of dispersion in image classification and natural language processing tasks, and how algorithms exhibit different trade-offs in different regimes.

arxiv情報

著者 Evgeniia Tokarchuk,Hua Chang Bakker,Vlad Niculae
発行日 2025-04-28 16:08:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | Keep your distance: learning dispersed embeddings on $\mathbb{S}_d$ はコメントを受け付けていません

On Stopping Times of Power-one Sequential Tests: Tight Lower and Upper Bounds

要約

一般的な複合ヌルと代替案の間の連続テストの停止時間の2つの下限を証明します。
最初の下限は、タイプ1エラーレベル$ \ alpha $がゼロに近づき、$ \ log(1/\ alpha)$を特定のInfimum kl Divergenceで割った$ \ operatorname {kl_ {inf}} $と呼ばれる設定用です。
2番目の下限は、$ \ alpha $が固定され、$ \ operatorname {kl_ {inf}} $が0(nullおよび代替セットが分離されていないことを意味します)に近づき、$ c \ operatorname {kl_ {inf}}}^{ – 1} \ log \ log log log log log log log log \ log log
\ operatorname {kl_ {inf}}^{ – 1} $ universal constant $ c> 0 $。
また、上限を一致させるのに十分な条件を提供し、いくつかの特別なケースでこの状態が満たされていることを示します。
過去の仕事を考えると、これらの上限と下限はその形では驚くことではありません。
私たちの主な貢献は、たとえば、彼らが保持する一般性です。たとえば、クラスの参照対策やコンパクトさを必要としません。

要約(オリジナル)

We prove two lower bounds for stopping times of sequential tests between general composite nulls and alternatives. The first lower bound is for the setting where the type-1 error level $\alpha$ approaches zero, and equals $\log(1/\alpha)$ divided by a certain infimum KL divergence, termed $\operatorname{KL_{inf}}$. The second lower bound applies to the setting where $\alpha$ is fixed and $\operatorname{KL_{inf}}$ approaches 0 (meaning that the null and alternative sets are not separated) and equals $c \operatorname{KL_{inf}}^{-1} \log \log \operatorname{KL_{inf}}^{-1}$ for a universal constant $c > 0$. We also provide a sufficient condition for matching the upper bounds and show that this condition is met in several special cases. Given past work, these upper and lower bounds are unsurprising in their form; our main contribution is the generality in which they hold, for example, not requiring reference measures or compactness of the classes.

arxiv情報

著者 Shubhada Agrawal,Aaditya Ramdas
発行日 2025-04-28 16:22:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, math.ST, stat.ML, stat.TH | On Stopping Times of Power-one Sequential Tests: Tight Lower and Upper Bounds はコメントを受け付けていません

DROP: Poison Dilution via Knowledge Distillation for Federated Learning

要約

連邦学習は、悪意のあるクライアントがグローバルモデルの行動に影響を与えるために毒された更新を注入できる敵対的な操作に対して脆弱です。
既存の防衛メカニズムは顕著な進歩を遂げましたが、彼らは異なる学習と攻撃の構成の下でターゲットを絞った背景を誘導することを目的とする敵から保護することに失敗しています。
この制限に対処するために、クラスタリングとアクティビティ追跡技術を知識の蒸留を介してクライアントからの良性行動の抽出を組み合わせて、低データ中毒率と連邦内の多様な悪意のあるクライアント比を操作するステルス敵に取り組む新しい防御メカニズムであるドロップ(蒸留ベースの中毒の減少)を導入します。
広範な実験を通じて、私たちのアプローチは、幅広い学習構成にわたる既存の防御と比較して優れた堅牢性を示しています。
最後に、非IIDクライアントデータ分布の挑戦的な設定の下で既存の防御と方法を評価し、この設定でResilient FL防御を設計するという課題を強調します。

要約(オリジナル)

Federated Learning is vulnerable to adversarial manipulation, where malicious clients can inject poisoned updates to influence the global model’s behavior. While existing defense mechanisms have made notable progress, they fail to protect against adversaries that aim to induce targeted backdoors under different learning and attack configurations. To address this limitation, we introduce DROP (Distillation-based Reduction Of Poisoning), a novel defense mechanism that combines clustering and activity-tracking techniques with extraction of benign behavior from clients via knowledge distillation to tackle stealthy adversaries that manipulate low data poisoning rates and diverse malicious client ratios within the federation. Through extensive experimentation, our approach demonstrates superior robustness compared to existing defenses across a wide range of learning configurations. Finally, we evaluate existing defenses and our method under the challenging setting of non-IID client data distribution and highlight the challenges of designing a resilient FL defense in this setting.

arxiv情報

著者 Georgios Syros,Anshuman Suri,Farinaz Koushanfar,Cristina Nita-Rotaru,Alina Oprea
発行日 2025-04-28 16:24:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CR, cs.DC, cs.LG | DROP: Poison Dilution via Knowledge Distillation for Federated Learning はコメントを受け付けていません

Robust Federated Personalised Mean Estimation for the Gaussian Mixture Model

要約

異種のデータとパーソナライズを伴う連合学習は、最近の大きな注目を集めています。
それとは別に、フェデレート学習のコンテキストで破損したデータに対する堅牢性も研究されています。
この論文では、クライアントの一定の部分が破損している不均一なデータのパーソナライズを堅牢性と組み合わせて検討します。
この幅広い問題に動機付けられているため、その困難の一部を捉える簡単なインスタンス化を策定します。
ガウス混合モデルからデータが描かれているパーソナライズされた平均推定の特定の問題に焦点を当てます。
破損したサンプルと腐敗していないサンプルの比率にほぼ直線的に依存するアルゴリズムを与え、一定の因子のギャップがあるにもかかわらず、同じ動作で下限を示します。

要約(オリジナル)

Federated learning with heterogeneous data and personalization has received significant recent attention. Separately, robustness to corrupted data in the context of federated learning has also been studied. In this paper we explore combining personalization for heterogeneous data with robustness, where a constant fraction of the clients are corrupted. Motivated by this broad problem, we formulate a simple instantiation which captures some of its difficulty. We focus on the specific problem of personalized mean estimation where the data is drawn from a Gaussian mixture model. We give an algorithm whose error depends almost linearly on the ratio of corrupted to uncorrupted samples, and show a lower bound with the same behavior, albeit with a gap of a constant factor.

arxiv情報

著者 Malhar A. Managoli,Vinod M. Prabhakaran,Suhas Diggavi
発行日 2025-04-28 16:24:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.IT, cs.LG, math.IT | Robust Federated Personalised Mean Estimation for the Gaussian Mixture Model はコメントを受け付けていません

Transfer Learning Under High-Dimensional Network Convolutional Regression Model

要約

転送学習は、特にラベル付きデータが不足している場合、関連ドメインからの知識を利用することにより、モデルのパフォーマンスを向上させます。
既存の研究は、独立した設定のさまざまな分布シフトの下での転送学習に対処していますが、ネットワーク化されたデータの依存関係の処理は依然として困難です。
この課題に対処するために、グラフ畳み込みネットワーク(GCNS)の成功に触発されたネットワーク畳み込み回帰(NCR)に基づいた高次元転送学習フレームワークを提案します。
NCRモデルには、各ノードの応答が近隣の機能と集計された機能に依存し、ローカルの依存関係を効果的にキャプチャすることを可能にすることにより、ランダムネットワーク構造を組み込みます。
私たちの方法論には、ソースネットワークとターゲットネットワーク間のドメインシフトに対処する2段階の転送学習アルゴリズムと、有益なドメインを特定するためのソース検出メカニズムが含まれます。
理論的には、Erdos-Renyiモデルの仮定に基づいたランダムグラフのコンテキストでラッソ推定器を分析し、伝達学習が有益なソースが存在するときに収束速度を改善することを示しています。
Sina Weiboデータを使用したシミュレーションや実際のアプリケーションを含む経験的評価は、特にターゲットドメインのラベルデータが限られている場合、予測精度の大幅な改善を示しています。

要約(オリジナル)

Transfer learning enhances model performance by utilizing knowledge from related domains, particularly when labeled data is scarce. While existing research addresses transfer learning under various distribution shifts in independent settings, handling dependencies in networked data remains challenging. To address this challenge, we propose a high-dimensional transfer learning framework based on network convolutional regression (NCR), inspired by the success of graph convolutional networks (GCNs). The NCR model incorporates random network structure by allowing each node’s response to depend on its features and the aggregated features of its neighbors, capturing local dependencies effectively. Our methodology includes a two-step transfer learning algorithm that addresses domain shift between source and target networks, along with a source detection mechanism to identify informative domains. Theoretically, we analyze the lasso estimator in the context of a random graph based on the Erdos-Renyi model assumption, demonstrating that transfer learning improves convergence rates when informative sources are present. Empirical evaluations, including simulations and a real-world application using Sina Weibo data, demonstrate substantial improvements in prediction accuracy, particularly when labeled data in the target domain is limited.

arxiv情報

著者 Liyuan Wang,Jiachen Chen,Kathryn L. Lunetta,Danyang Huang,Huimin Cheng,Debarghya Mukherjee
発行日 2025-04-28 16:52:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ME | Transfer Learning Under High-Dimensional Network Convolutional Regression Model はコメントを受け付けていません