Empowering Data Mesh with Federated Learning

要約

データ アーキテクチャの進化により、データ管理のボトルネックを解決し、インテリジェントな意思決定を促進することを目的としたデータ レイクが台頭してきました。
ただし、この集中型アーキテクチャは、データ ソースの急増と、タイムリーな分析と処理に対する需要の増大によって制限されます。
これらの課題を克服するために、新しいデータ パラダイムであるデータ メッシュが提案されています。
データ メッシュは、ドメインとそのデータ製品を監視するフェデレーション ガバナンスを維持しながら、データの所有権を中央チームから各データ ドメインに分散することにより、ドメインを最優先事項として扱います。
Paypal、Netflix、Zalando などの多くの数百万ドル規模の組織は、すでにこの新しいアーキテクチャに基づいてデータ分析パイプラインを変革しています。
データが各ドメイン チームによってローカルに保存されるこの分散型アーキテクチャでは、従来の集中型機械学習では、特にセキュリティに敏感な組織の場合、複数のドメインにわたって効果的な分析を行うことができません。
この目的を達成するために、Federated Learning をデータ メッシュに組み込む先駆的なアプローチを導入します。
私たちの知る限り、これは、データ メッシュ パラダイムへのフェデレーテッド ラーニング手法の統合に向けた重要な進歩を表す最初のオープンソース応用作品であり、データ メッシュ内でのプライバシー保護と分散型データ分析戦略の有望な見通しを強調しています。
建築。

要約(オリジナル)

The evolution of data architecture has seen the rise of data lakes, aiming to solve the bottlenecks of data management and promote intelligent decision-making. However, this centralized architecture is limited by the proliferation of data sources and the growing demand for timely analysis and processing. A new data paradigm, Data Mesh, is proposed to overcome these challenges. Data Mesh treats domains as a first-class concern by distributing the data ownership from the central team to each data domain, while keeping the federated governance to monitor domains and their data products. Many multi-million dollar organizations like Paypal, Netflix, and Zalando have already transformed their data analysis pipelines based on this new architecture. In this decentralized architecture where data is locally preserved by each domain team, traditional centralized machine learning is incapable of conducting effective analysis across multiple domains, especially for security-sensitive organizations. To this end, we introduce a pioneering approach that incorporates Federated Learning into Data Mesh. To the best of our knowledge, this is the first open-source applied work that represents a critical advancement toward the integration of federated learning methods into the Data Mesh paradigm, underscoring the promising prospects for privacy-preserving and decentralized data analysis strategies within Data Mesh architecture.

arxiv情報

著者 Haoyuan Li,Salman Toor
発行日 2024-03-27 16:01:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.DC, cs.LG パーマリンク