Adaptive Distributed Kernel Ridge Regression: A Feasible Distributed Learning Scheme for Data Silos

要約

データサイロは主にプライバシーと相互運用性によって引き起こされ、同じ目的で同様のデータを使用する異なる組織間のコラボレーションを大幅に制限します。
分割統治に基づく分散学習は、データサイロを解決する有望な方法ですが、自律性、プライバシーの保証、コラボレーションの必要性など、いくつかの課題があります。
この論文は、パラメータ選択における自律性、非機密情報通信におけるプライバシー、およびパフォーマンス向上におけるコラボレーションの必要性を考慮して、適応型分散カーネル リッジ回帰 (AdaDKRR) の開発に焦点を当てています。
当社は、AdaDKRR の実現可能性と有効性を実証するために、確かな理論的検証と包括的な実験の両方を提供します。
理論的には、いくつかの穏やかな条件下では、AdaDKRR がデータ全体に対して最適な学習アルゴリズムを実行するのと同様に機能することを証明し、コラボレーションの必要性を検証し、同じ条件下では他の分散学習スキームが本質的に AdaDKRR に勝てないことを示しました。
数値的には、玩具シミュレーションと 2 つの現実世界のアプリケーションの両方で AdaDKRR をテストし、AdaDKRR が他の既存の分散学習スキームより優れていることを示しました。
これらすべての結果は、AdaDKRR がデータ サイロを防御する実現可能なスキームであることを示しています。データ サイロは、インテリジェントな意思決定、価格予測、製品のパフォーマンス予測などの多くのアプリケーション領域で強く望まれています。

要約(オリジナル)

Data silos, mainly caused by privacy and interoperability, significantly constrain collaborations among different organizations with similar data for the same purpose. Distributed learning based on divide-and-conquer provides a promising way to settle the data silos, but it suffers from several challenges, including autonomy, privacy guarantees, and the necessity of collaborations. This paper focuses on developing an adaptive distributed kernel ridge regression (AdaDKRR) by taking autonomy in parameter selection, privacy in communicating non-sensitive information, and the necessity of collaborations in performance improvement into account. We provide both solid theoretical verification and comprehensive experiments for AdaDKRR to demonstrate its feasibility and effectiveness. Theoretically, we prove that under some mild conditions, AdaDKRR performs similarly to running the optimal learning algorithms on the whole data, verifying the necessity of collaborations and showing that no other distributed learning scheme can essentially beat AdaDKRR under the same conditions. Numerically, we test AdaDKRR on both toy simulations and two real-world applications to show that AdaDKRR is superior to other existing distributed learning schemes. All these results show that AdaDKRR is a feasible scheme to defend against data silos, which are highly desired in numerous application regions such as intelligent decision-making, pricing forecasting, and performance prediction for products.

arxiv情報

著者 Di Wang,Xiaotong Liu,Shao-Bo Lin,Ding-Xuan Zhou
発行日 2023-09-08 09:54:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML パーマリンク