要約
タイトル:FedPNN:進化するクラスタリング方法と確率ニューラルネットワークハイブリッドを用いたワンショットフェデレーテッド分類
要約:
– データプライバシーの保護は、金融、銀行、医療などの分野で極めて重要です。
– フェデレーテッドラーニング(FL)は、分散型トレーニングとプライバシー保護の両方を実現できるため、広く注目を集めています。
– しかし、FLは通信オーバーヘッドやリソースの制限などの課題があります。
– そこで、プライバシー保護を目的とした2段階のフェデレーテッドラーニングアプローチを提案しました。
– 第1段階では、2つの異なる分布をノイズとして採用してバニラ条件付きタブラーネラルニューラルネットワーク(CTGAN)に適用し、変更されたCTGANによって合成データセットを生成します。
– 第2段階では、フェデレーテッド確率ニューラルネットワーク(FedPNN)を開発し、グローバルな共有分類モデルを構築するために使用します。
– さらに、生成された合成データセットの品質を確認するために、合成データセットのメトリックスを採用しました。
– また、メタクラスタリングアルゴリズムを提案し、クライアントから得られたクラスター中心をサーバーでクラスタリングして、グローバルモデルのトレーニングを実行します。
– PNNはワンパス学習分類器ですが、その複雑さはトレーニングデータのサイズに依存します。
– したがって、トレーニングデータをクラスタリングするための変更された進化クラスタリング方法(ECM)を採用し、さらに速度を上げました。
– さらに、サーバーおよびクライアントのハイパーパラメータであるECMのDthrを1つずつ変化させて、感度分析を実施しました。
– 当社のアプローチの有効性は、4つの金融および医療データセットで検証されました。
要約(オリジナル)
Protecting data privacy is paramount in the fields such as finance, banking, and healthcare. Federated Learning (FL) has attracted widespread attention due to its decentralized, distributed training and the ability to protect the privacy while obtaining a global shared model. However, FL presents challenges such as communication overhead, and limited resource capability. This motivated us to propose a two-stage federated learning approach toward the objective of privacy protection, which is a first-of-its-kind study as follows: (i) During the first stage, the synthetic dataset is generated by employing two different distributions as noise to the vanilla conditional tabular generative adversarial neural network (CTGAN) resulting in modified CTGAN, and (ii) In the second stage, the Federated Probabilistic Neural Network (FedPNN) is developed and employed for building globally shared classification model. We also employed synthetic dataset metrics to check the quality of the generated synthetic dataset. Further, we proposed a meta-clustering algorithm whereby the cluster centers obtained from the clients are clustered at the server for training the global model. Despite PNN being a one-pass learning classifier, its complexity depends on the training data size. Therefore, we employed a modified evolving clustering method (ECM), another one-pass algorithm to cluster the training data thereby increasing the speed further. Moreover, we conducted sensitivity analysis by varying Dthr, a hyperparameter of ECM at the server and client, one at a time. The effectiveness of our approach is validated on four finance and medical datasets.
arxiv情報
著者 | Polaki Durga Prasad,Yelleti Vivek,Vadlamani Ravi |
発行日 | 2023-04-09 03:23:37+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, OpenAI