Noise-Aware Algorithm for Heterogeneous Differentially Private Federated Learning

要約

高いユーティリティと厳格なデータプライバシーは、一部のクライアント間で分散されたデータからモデルを学習するフェデレートラーニング(FL)システムの主な目標です。
後者は、FL(DPFL)の差別的なプライバシーを使用して達成しようと試みられています。
多くの場合、クライアントのプライバシー要件には不均一性があり、既存のDPFLは、クライアントの均一なプライバシー要件を想定するか、サーバーが完全に信頼されていない場合に適用できません(私たちの設定)。
さらに、クライアントのバッチおよび/またはデータセットサイズには不均一性がしばしばあり、示されているように、クライアントモデルの更新全体でDPノイズレベルに余分な変動が生じます。
これらの不均一性のソースにより、たとえば、プライバシーパラメーターに比例したクライアントの集約重みを割り当てるたとえば、単純な集約戦略があります。
堅牢なHDPを提案します。これは、クライアントのモデルの更新の真のノイズレベルを効率的に推定し、集約されたモデルの更新のノイズレベルを大幅に削減します。
Robust-HDPはユーティリティと収束速度を向上させますが、偽造されたプライバシーパラメーターをサーバーに悪意を持って送信する可能性のあるクライアントに安全であることがあります。
複数のデータセットと当社の理論分析での広範な実験結果は、堅牢なHDPの有効性を確認します。
私たちのコードはここにあります。

要約(オリジナル)

High utility and rigorous data privacy are of the main goals of a federated learning (FL) system, which learns a model from the data distributed among some clients. The latter has been tried to achieve by using differential privacy in FL (DPFL). There is often heterogeneity in clients privacy requirements, and existing DPFL works either assume uniform privacy requirements for clients or are not applicable when server is not fully trusted (our setting). Furthermore, there is often heterogeneity in batch and/or dataset size of clients, which as shown, results in extra variation in the DP noise level across clients model updates. With these sources of heterogeneity, straightforward aggregation strategies, e.g., assigning clients aggregation weights proportional to their privacy parameters will lead to lower utility. We propose Robust-HDP, which efficiently estimates the true noise level in clients model updates and reduces the noise-level in the aggregated model updates considerably. Robust-HDP improves utility and convergence speed, while being safe to the clients that may maliciously send falsified privacy parameter to server. Extensive experimental results on multiple datasets and our theoretical analysis confirm the effectiveness of Robust-HDP. Our code can be found here.

arxiv情報

著者 Saber Malekmohammadi,Yaoliang Yu,Yang Cao
発行日 2025-02-14 18:16:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CR, cs.DC, cs.LG | Noise-Aware Algorithm for Heterogeneous Differentially Private Federated Learning はコメントを受け付けていません

New tools for comparing classical and neural ODE models for tumor growth

要約

腫瘍の成長をモデル化するための新しい計算ツール腫瘍グロース$。$ JLが導入されています。
このツールにより、General BertalanffyやGompertzなどの標準的な教科書モデルと、初めてのニューラルODEモデルを含むいくつかの新しいモデルを比較できます。
アプリケーションとして、2つの異なる治療オプションを受けている患者において、非小細胞肺癌および膀胱癌病変のヒトメタ研究を再検討し、以前に報告されたパフォーマンスの違いが統計的に有意であるかどうかを判断し、より新しい、より複雑なモデルを実行するかどうかを判断します。
もっと良い。
キャリブレーションに利用可能な少なくとも4つの時間式測定値があり、平均約6.3の例の例では、私たちの主な結論は、一般的なBertalanffyモデルが平均して優れた性能を持っているということです。
ただし、より多くの測定値が利用可能な場合、リバウンドおよび再発行動をキャプチャできるより複雑なモデルがより良い選択になる可能性があると主張します。

要約(オリジナル)

A new computational tool TumorGrowth$.$jl for modeling tumor growth is introduced. The tool allows the comparison of standard textbook models, such as General Bertalanffy and Gompertz, with some newer models, including, for the first time, neural ODE models. As an application, we revisit a human meta-study of non-small cell lung cancer and bladder cancer lesions, in patients undergoing two different treatment options, to determine if previously reported performance differences are statistically significant, and if newer, more complex models perform any better. In a population of examples with at least four time-volume measurements available for calibration, and an average of about 6.3, our main conclusion is that the General Bertalanffy model has superior performance, on average. However, where more measurements are available, we argue that more complex models, capable of capturing rebound and relapse behavior, may be better choices.

arxiv情報

著者 Anthony D. Blaom,Samuel Okon
発行日 2025-02-14 18:24:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, q-bio.QM | New tools for comparing classical and neural ODE models for tumor growth はコメントを受け付けていません

Differentially Private Clustered Federated Learning

要約

分散化された機械学習(ML)アプローチであるFederated Learning(FL)は、多くの場合、差別的なプライバシー(DP)を組み込んで、厳格なデータプライバシー保証を提供します。
以前の作品は、クラスタリングクライアント(Clustered FL)を介したバニラFLの設定で高構造化データの不均一性に対処しようとしましたが、これらの方法は敏感でエラーになりやすく、DPノイズによってさらに悪化します。
この脆弱性により、以前の方法は、構造化されたデータの不均一性を備えた差別的にプライベートなFL(DPFL)設定に不適切になります。
このギャップに対処するために、システム内のDPノイズに堅牢で、基礎となるクライアントのクラスターを正しく識別する、差次的にプライベートなクラスター化されたFLのアルゴリズムを提案します。
この目的のために、モデルの更新とトレーニング損失値の両方に基づいてクライアントをクラスター化することを提案します。
さらに、最初のラウンドの終わりにクライアントのモデルの更新をクラスタリングするために、提案されたアプローチは、DPと確率ノイズの影響を減らし、潜在的なクラスタリングを回避するために、大きなバッチサイズとガウス混合モデル(GMM)を使用することにより、サーバーの不確実性に対処します。
エラー。
このアイデアは、特にDPノイズが多いプライバシーに敏感なシナリオで効率的です。
私たちは、私たちのアプローチを正当化し、多様なデータ分布とプライバシーの予算を通じてそれを評価するための理論分析を提供します。
私たちの実験結果は、DPFLの大規模な構造化データの不均一性に対処する際の有効性を示しています。

要約(オリジナル)

Federated learning (FL), which is a decentralized machine learning (ML) approach, often incorporates differential privacy (DP) to provide rigorous data privacy guarantees. Previous works attempted to address high structured data heterogeneity in vanilla FL settings through clustering clients (a.k.a clustered FL), but these methods remain sensitive and prone to errors, further exacerbated by the DP noise. This vulnerability makes the previous methods inappropriate for differentially private FL (DPFL) settings with structured data heterogeneity. To address this gap, we propose an algorithm for differentially private clustered FL, which is robust to the DP noise in the system and identifies the underlying clients’ clusters correctly. To this end, we propose to cluster clients based on both their model updates and training loss values. Furthermore, for clustering clients’ model updates at the end of the first round, our proposed approach addresses the server’s uncertainties by employing large batch sizes as well as Gaussian Mixture Models (GMM) to reduce the impact of DP and stochastic noise and avoid potential clustering errors. This idea is efficient especially in privacy-sensitive scenarios with more DP noise. We provide theoretical analysis to justify our approach and evaluate it across diverse data distributions and privacy budgets. Our experimental results show its effectiveness in addressing large structured data heterogeneity in DPFL.

arxiv情報

著者 Saber Malekmohammadi,Afaf Taik,Golnoosh Farnadi
発行日 2025-02-14 18:24:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CR, cs.DC, cs.LG | Differentially Private Clustered Federated Learning はコメントを受け付けていません

Assortment Optimization for Patient-Provider Matching

要約

上昇するプロバイダーの売上高は、医療管理者が頻繁に患者を利用可能なプロバイダーに再戦することを強制します。
再戦の負担を軽減するために、品揃えの最適化を通じて患者とプロバイダーを一致させるためのアルゴリズムを研究します。
患者プロバイダーマッチングモデルを開発し、各患者にプロバイダーのメニューを同時に提供し、その後患者にプロバイダーを選択します。
各種を前もって提供することにより、管理者は物流の容易さと患者の自律性のバランスをとることができます。
品揃えの最適化に関するポリシーを研究し、さまざまな問題設定の下でパフォーマンスを特徴付けます。
品揃えポリシーの選択は、問題の詳細、特に患者の一致意欲と患者とプロバイダーの比率に大きく依存していることを実証します。
実際のデータでは、患者の特性に基づいて品揃えのサイズを調整することにより、貪欲なソリューションよりも最良のポリシーが貪欲なソリューションよりも13%を改善できることを示しています。
私たちは、結果に触発された現実世界の患者プロバイダーマッチングシステムを実行するための推奨事項で締めくくります。

要約(オリジナル)

Rising provider turnover forces healthcare administrators to frequently rematch patients to available providers, which can be cumbersome and labor-intensive. To reduce the burden of rematching, we study algorithms for matching patients and providers through assortment optimization. We develop a patient-provider matching model in which we simultaneously offer each patient a menu of providers, and patients subsequently respond and select providers. By offering assortments upfront, administrators can balance logistical ease and patient autonomy. We study policies for assortment optimization and characterize their performance under different problem settings. We demonstrate that the selection of assortment policy is highly dependent on problem specifics and, in particular, on a patient’s willingness to match and the ratio between patients and providers. On real-world data, we show that our best policy can improve match quality by 13% over a greedy solution by tailoring assortment sizes based on patient characteristics. We conclude with recommendations for running a real-world patient-provider matching system inspired by our results.

arxiv情報

著者 Naveen Raman,Holly Wiberg
発行日 2025-02-14 18:32:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CY, cs.LG, math.OC | Assortment Optimization for Patient-Provider Matching はコメントを受け付けていません

Dimension-free Score Matching and Time Bootstrapping for Diffusion Models

要約

拡散モデルは、さまざまなノイズレベルでターゲット分布のスコア関数を推定することにより、サンプルを生成します。
このモデルは、ターゲット分布から描かれたサンプルを使用してトレーニングされ、徐々にノイズを追加します。
この作業では、これらのスコア関数を学習するための最初の(ほぼ)寸法のないサンプルの複雑さの境界を確立し、以前の結果よりも次元の二重の指数的改善を達成します。
分析の重要な側面は、単一の関数近似器を使用して、ノイズレベル全体でスコアを共同で推定することです。これは、タイムステップ全体の一般化を可能にする拡散モデルの重要な特徴です。
私たちの分析では、新しいMartingaleベースのエラー分解と急激な分散境界を導入し、Markovプロセスによって生成された従属データから効率的な学習を可能にします。
これらの洞察に基づいて、ブートストラップスコアマッチング(BSM)を提案します。これは、以前に学習したスコアを利用してより高いノイズレベルで精度を向上させる分散削減手法です。
これらの結果は、生成モデリングのための拡散モデルの効率と有効性に関する重要な洞察を提供します。

要約(オリジナル)

Diffusion models generate samples by estimating the score function of the target distribution at various noise levels. The model is trained using samples drawn from the target distribution, progressively adding noise. In this work, we establish the first (nearly) dimension-free sample complexity bounds for learning these score functions, achieving a double exponential improvement in dimension over prior results. A key aspect of our analysis is the use of a single function approximator to jointly estimate scores across noise levels, a critical feature of diffusion models in practice which enables generalization across timesteps. Our analysis introduces a novel martingale-based error decomposition and sharp variance bounds, enabling efficient learning from dependent data generated by Markov processes, which may be of independent interest. Building on these insights, we propose Bootstrapped Score Matching (BSM), a variance reduction technique that utilizes previously learned scores to improve accuracy at higher noise levels. These results provide crucial insights into the efficiency and effectiveness of diffusion models for generative modeling.

arxiv情報

著者 Syamantak Kumar,Dheeraj Nagaraj,Purnamrita Sarkar
発行日 2025-02-14 18:32:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, math.ST, stat.ML, stat.TH | Dimension-free Score Matching and Time Bootstrapping for Diffusion Models はコメントを受け付けていません

Learning Euler Factors of Elliptic Curves

要約

トランスモデルとフィードフォワードニューラルネットワークを適用して、他のトレース$ A_Q $を考慮して、楕円曲線からFrobenius Traces $ A_P $を予測します。
さらにモデルをトレーニングして、$ a_q \ bmod 2 $から$ a_p \ bmod 2 $、および$ a_q $から$ a_p \ bmod 2 $などの分析を予測します。
私たちの実験は、これらのモデルが$ L $ -Functionsの機能方程式のような明示的な数理論ツールがない場合でも、高い精度を達成することを明らかにしています。
また、部分的な解釈可能性の調査結果も提示します。

要約(オリジナル)

We apply transformer models and feedforward neural networks to predict Frobenius traces $a_p$ from elliptic curves given other traces $a_q$. We train further models to predict $a_p \bmod 2$ from $a_q \bmod 2$, and cross-analysis such as $a_p \bmod 2$ from $a_q$. Our experiments reveal that these models achieve high accuracy, even in the absence of explicit number-theoretic tools like functional equations of $L$-functions. We also present partial interpretability findings.

arxiv情報

著者 Angelica Babei,François Charton,Edgar Costa,Xiaoyu Huang,Kyu-Hwan Lee,David Lowry-Duda,Ashvni Narayanan,Alexey Pozdnyakov
発行日 2025-02-14 18:39:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, math.NT | Learning Euler Factors of Elliptic Curves はコメントを受け付けていません

Proper Learnability and the Role of Unlabeled Data

要約

適切な学習とは、学習者が基礎となる仮説クラス$ h $の予測因子を放出しなければならない設定を指し、多くの場合、単純なアルゴリズム形式(例:経験的リスク最小化(ERM)、構造リスク最小化(SRM))を持つ学習者につながります。
ただし、適切な学習の制限は、不適切にしか学習できない問題が存在することです。
マルチクラス分類で。
したがって、私たちは次のように尋ねます:仮説クラスまたは学習者に提供される情報のどの仮定の下で、適切に学習できる問題はありますか?
最初に、非標識データ分布が与えられた場合、分布の正則化、ランダム化された正則化の一般化によって支配される最適な適切な学習者が常に存在することを実証します。
この設定を配布固定PACモデルと呼び、すべての分布における最悪のケースのパフォーマンスについて学習者を評価し続けます。
私たちの結果は、すべてのメトリック損失関数と有限の学習問題(そのサイズに依存しない)に当てはまります。
さらに、分布固定PACモデルのサンプルの複雑さは、古典的なPACモデルからの対数因子のみによって縮小できることを実証し、PAC学習における非標識データの役割(最悪の観点から)に強く反論することを実証します。
これは、実現可能なPACモデルの適切な学習性の特性評価を妨げる不可能な結果で補完します。
まず、適切な学習可能性が論理的に統計不可能である、つまりZFC公理とは無関係の問題があることを観察します。
次に、適切な学習可能性は、基礎となる仮説クラスの単調な特性ではなく、それが(正確な意味で)ローカルプロパティではないことを示します。
私たちの不可能性の結果はすべて、マルチクラス分類の基本的な設定でさえも保持され、EMX学習(Ben-David et al。、2019)の削減を経て、独立した関心のある適切な分類になります。

要約(オリジナル)

Proper learning refers to the setting in which learners must emit predictors in the underlying hypothesis class $H$, and often leads to learners with simple algorithmic forms (e.g. empirical risk minimization (ERM), structural risk minimization (SRM)). The limitation of proper learning, however, is that there exist problems which can only be learned improperly, e.g. in multiclass classification. Thus, we ask: Under what assumptions on the hypothesis class or the information provided to the learner is a problem properly learnable? We first demonstrate that when the unlabeled data distribution is given, there always exists an optimal proper learner governed by distributional regularization, a randomized generalization of regularization. We refer to this setting as the distribution-fixed PAC model, and continue to evaluate the learner on its worst-case performance over all distributions. Our result holds for all metric loss functions and any finite learning problem (with no dependence on its size). Further, we demonstrate that sample complexities in the distribution-fixed PAC model can shrink by only a logarithmic factor from the classic PAC model, strongly refuting the role of unlabeled data in PAC learning (from a worst-case perspective). We complement this with impossibility results which obstruct any characterization of proper learnability in the realizable PAC model. First, we observe that there are problems whose proper learnability is logically undecidable, i.e., independent of the ZFC axioms. We then show that proper learnability is not a monotone property of the underlying hypothesis class, and that it is not a local property (in a precise sense). Our impossibility results all hold even for the fundamental setting of multiclass classification, and go through a reduction of EMX learning (Ben-David et al., 2019) to proper classification which may be of independent interest.

arxiv情報

著者 Julian Asilis,Siddartha Devic,Shaddin Dughmi,Vatsal Sharan,Shang-Hua Teng
発行日 2025-02-14 18:41:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML | Proper Learnability and the Role of Unlabeled Data はコメントを受け付けていません

AffinityFlow: Guided Flows for Antibody Affinity Maturation

要約

抗体は治療薬として広く使用されていますが、その発達には、結合親和性を高めるための反復変異を含むコストのかかる親和性成熟が必要です。この論文では、抗体と抗原配列を使用して、アフィニティ成熟のシーケンスのみのシナリオを探ります。
最近、アルファフローはフローマッチング内でアルファフォルドをラップして、多様なタンパク質構造を生成し、構造のシーケンス条件付き生成モデルを可能にします。
これに基づいて、(1)構造ベースのアフィニティ予測子を使用して、(1)構造生成を高結合親和性に向けてガイドするシーケンスを修正する交互の最適化フレームワークを提案します。
ポスト選択のためのアフィニティ予測因子に基づいています。
これに対処するために、ノイズの多い生物物理学的エネルギーから予測因子の洗練に貴重な情報を組み込んだ共同科学モジュールを開発します。
シーケンスベースの予測子は、構造ベースの予測因子を教えるためにコンセンサスサンプルを選択し、その逆も同様です。
私たちの方法であるAffinityFlowは、アフィニティ成熟実験で最先端のパフォーマンスを実現します。
受け入れた後、コードをオープンソースする予定です。

要約(オリジナル)

Antibodies are widely used as therapeutics, but their development requires costly affinity maturation, involving iterative mutations to enhance binding affinity.This paper explores a sequence-only scenario for affinity maturation, using solely antibody and antigen sequences. Recently AlphaFlow wraps AlphaFold within flow matching to generate diverse protein structures, enabling a sequence-conditioned generative model of structure. Building on this, we propose an alternating optimization framework that (1) fixes the sequence to guide structure generation toward high binding affinity using a structure-based affinity predictor, then (2) applies inverse folding to create sequence mutations, refined by a sequence-based affinity predictor for post selection. To address this, we develop a co-teaching module that incorporates valuable information from noisy biophysical energies into predictor refinement. The sequence-based predictor selects consensus samples to teach the structure-based predictor, and vice versa. Our method, AffinityFlow, achieves state-of-the-art performance in affinity maturation experiments. We plan to open-source our code after acceptance.

arxiv情報

著者 Can Chen,Karla-Luise Herpoldt,Chenchao Zhao,Zichen Wang,Marcus Collins,Shang Shang,Ron Benson
発行日 2025-02-14 18:43:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG | AffinityFlow: Guided Flows for Antibody Affinity Maturation はコメントを受け付けていません

An Interactive Framework for Implementing Privacy-Preserving Federated Learning: Experiments on Large Language Models

要約

Federated Learning(FL)は、ローカルデバイスにユーザーデータを保持することにより、プライバシーを強化します。
しかし、新たな攻撃は、トレーニング中にユーザーが共有する更新がデータに関する重要な情報を明らかにすることができることを実証しています。
これにより、デリケートなアプリケーションで堅牢なAIモデルをトレーニングするためのFLメソッドの採用を大いに阻止しています。
差動プライバシー(DP)は、ユーザーデータを保護するためのゴールドスタンダードと見なされます。
ただし、DP保証は非常に保守的であり、最悪のプライバシー保証を提供します。
これにより、プライバシーのニーズが過大評価され、モデルの精度が損なわれる可能性があります。
さらに、これらのプライバシー保証の解釈は、さまざまなコンテキストで挑戦的であることが証明されています。
これは、トレーニングの数、データ分布、特定のアプリケーション要件などの他の要因が、この問題にさらに複雑さを加えることができる場合、さらに悪化します。
この作業では、モデルのプライバシーとユーティリティの間の最適なトレードオフを決定するために、人間のエンティティをプライバシー実務者として統合するフレームワークを提案しました。
私たちのフレームワークは、リソース制限デバイス(携帯電話など)が参加できるFL設定での既存のDPメソッドの可変メモリ要件に最初に対処することです。
このような設定をサポートするために、固定メモリ使用量を使用して最近のDPメソッドを採用して、スケーラブルなプライベートFLを確保します。
接着剤データセット(文献の一般的なアプローチ)を使用してBERTベースのLLMモデルを微調整し、新しい会計士を活用し、実際の条件を模倣するための多様なデータ分割戦略を採用することにより、提案されたフレームワークを評価しました。
その結果、最先端のDP会計士と比較した場合、$ \ epsilon = 10 $ = 10 $、$ \ epsilon = 6 $で平均精度が1.33%、$ \ epsilon = 6 $の安定したメモリ使用量を達成しました。
固定メモリ使用量をサポートしていません。

要約(オリジナル)

Federated learning (FL) enhances privacy by keeping user data on local devices. However, emerging attacks have demonstrated that the updates shared by users during training can reveal significant information about their data. This has greatly thwart the adoption of FL methods for training robust AI models in sensitive applications. Differential Privacy (DP) is considered the gold standard for safeguarding user data. However, DP guarantees are highly conservative, providing worst-case privacy guarantees. This can result in overestimating privacy needs, which may compromise the model’s accuracy. Additionally, interpretations of these privacy guarantees have proven to be challenging in different contexts. This is further exacerbated when other factors, such as the number of training iterations, data distribution, and specific application requirements, can add further complexity to this problem. In this work, we proposed a framework that integrates a human entity as a privacy practitioner to determine an optimal trade-off between the model’s privacy and utility. Our framework is the first to address the variable memory requirement of existing DP methods in FL settings, where resource-limited devices (e.g., cell phones) can participate. To support such settings, we adopt a recent DP method with fixed memory usage to ensure scalable private FL. We evaluated our proposed framework by fine-tuning a BERT-based LLM model using the GLUE dataset (a common approach in literature), leveraging the new accountant, and employing diverse data partitioning strategies to mimic real-world conditions. As a result, we achieved stable memory usage, with an average accuracy reduction of 1.33% for $\epsilon = 10$ and 1.9% for $\epsilon = 6$, when compared to the state-of-the-art DP accountant which does not support fixed memory usage.

arxiv情報

著者 Kasra Ahmadi,Rouzbeh Behnia,Reza Ebrahimi,Mehran Mozaffari Kermani,Jeremiah Birrell,Jason Pacheco,Attila A Yavuz
発行日 2025-02-14 18:52:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CR, cs.LG | An Interactive Framework for Implementing Privacy-Preserving Federated Learning: Experiments on Large Language Models はコメントを受け付けていません

Balancing the Scales: A Theoretical and Algorithmic Framework for Learning from Imbalanced Data

要約

クラスの不均衡は、特に長期にわたる分布のマルチクラスの問題において、機械学習における大きな課題のままです。
データの再サンプリング、コストに敏感な手法、ロジスティック損失の変更などの既存の方法は、一般的でしばしば効果的ですが、強固な理論的基礎を欠いています。
例として、コストに敏感な方法はベイズが一貫していないことを示します。
このペーパーでは、不均衡な分類における一般化を分析するための新しい理論的枠組みを紹介します。
バイナリとマルチクラスの両方の設定の新しいクラスに均衡したマージン損失関数を提案し、その強い$ h $の無意味性を証明し、経験的損失とクラスに敏感なラセマーの複雑さの新しい概念に基づいて、対応する学習保証を導き出します。
これらの理論的結果を活用して、信頼マージンを組み込み、さまざまな仮説セットに適用できる新規および一般学習アルゴリズムであるImmax(不均衡なマージンの最大化)を考案します。
私たちの焦点は理論的ですが、既存のベースラインと比較してアルゴリズムの有効性を実証する広範な経験的結果も提示します。

要約(オリジナル)

Class imbalance remains a major challenge in machine learning, especially in multi-class problems with long-tailed distributions. Existing methods, such as data resampling, cost-sensitive techniques, and logistic loss modifications, though popular and often effective, lack solid theoretical foundations. As an example, we demonstrate that cost-sensitive methods are not Bayes consistent. This paper introduces a novel theoretical framework for analyzing generalization in imbalanced classification. We propose a new class-imbalanced margin loss function for both binary and multi-class settings, prove its strong $H$-consistency, and derive corresponding learning guarantees based on empirical loss and a new notion of class-sensitive Rademacher complexity. Leveraging these theoretical results, we devise novel and general learning algorithms, IMMAX (Imbalanced Margin Maximization), which incorporate confidence margins and are applicable to various hypothesis sets. While our focus is theoretical, we also present extensive empirical results demonstrating the effectiveness of our algorithms compared to existing baselines.

arxiv情報

著者 Corinna Cortes,Anqi Mao,Mehryar Mohri,Yutao Zhong
発行日 2025-02-14 18:57:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML | Balancing the Scales: A Theoretical and Algorithmic Framework for Learning from Imbalanced Data はコメントを受け付けていません