Measuring Heterogeneity in Machine Learning with Distributed Energy Distance

要約

分散型およびフェデレート学習では、データソース全体の不均一性は、効果的なモデルの凝集と収束に対する大きな障害のままです。
特徴の不均一性に焦点を当て、分布の矛盾を定量化するための敏感な尺度としてエネルギー距離を導入します。
データ分布のシフトを検出するためにエネルギー距離が堅牢であることを示していますが、大規模システムでの直接使用は法外に高価になる可能性があります。
これに対処するために、計算オーバーヘッドを削減しながら重要な理論的定量的特性を保持するテイラー近似を開発します。
シミュレーション研究を通じて、特徴の不一致を正確にキャプチャすることで、分散学習の収束がどれほど高まるかを示します。
最後に、エネルギー距離の新しいアプリケーションを提案して、不均一なノード全体で予測を調整するためのペナルティウェイトを割り当て、最終的にフェデレートおよび分散設定での調整を強化します。

要約(オリジナル)

In distributed and federated learning, heterogeneity across data sources remains a major obstacle to effective model aggregation and convergence. We focus on feature heterogeneity and introduce energy distance as a sensitive measure for quantifying distributional discrepancies. While we show that energy distance is robust for detecting data distribution shifts, its direct use in large-scale systems can be prohibitively expensive. To address this, we develop Taylor approximations that preserve key theoretical quantitative properties while reducing computational overhead. Through simulation studies, we show how accurately capturing feature discrepancies boosts convergence in distributed learning. Finally, we propose a novel application of energy distance to assign penalty weights for aligning predictions across heterogeneous nodes, ultimately enhancing coordination in federated and distributed settings.

arxiv情報

著者 Mengchen Fan,Baocheng Geng,Roman Shterenberg,Joseph A. Casey,Zhong Chen,Keren Li
発行日 2025-01-27 16:15:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.DC, cs.LG, stat.ML パーマリンク