VertiBench: Advancing Feature Distribution Diversity in Vertical Federated Learning Benchmarks

要約

垂直フェデレーテッド ラーニング (VFL) は、機能分割された分散データで機械学習モデルをトレーニングするための重要なパラダイムです。
ただし、プライバシー制限により、アルゴリズム評価用に公開されている現実世界の VFL データセットはほとんど存在せず、これらは限られた特徴分布を表しています。
既存のベンチマークは、グローバル セットからの任意の特徴分割から派生した合成データセットに頼ることが多く、特徴分布のサブセットのみをキャプチャするため、アルゴリズムのパフォーマンス評価が不十分になります。
このペーパーでは、VFL パフォーマンスに影響を与える 2 つの重要な要素 (特徴の重要性と特徴の相関) を導入し、関連する評価指標とデータセットの分割方法を提案することで、これらの欠点に対処します。
さらに、画像間 VFL シナリオの欠点に対処するために、実際の VFL データセットを導入します。
最先端の VFL アルゴリズムの包括的な評価により、この分野の将来の研究に貴重な洞察が得られます。

要約(オリジナル)

Vertical Federated Learning (VFL) is a crucial paradigm for training machine learning models on feature-partitioned, distributed data. However, due to privacy restrictions, few public real-world VFL datasets exist for algorithm evaluation, and these represent a limited array of feature distributions. Existing benchmarks often resort to synthetic datasets, derived from arbitrary feature splits from a global set, which only capture a subset of feature distributions, leading to inadequate algorithm performance assessment. This paper addresses these shortcomings by introducing two key factors affecting VFL performance – feature importance and feature correlation – and proposing associated evaluation metrics and dataset splitting methods. Additionally, we introduce a real VFL dataset to address the deficit in image-image VFL scenarios. Our comprehensive evaluation of cutting-edge VFL algorithms provides valuable insights for future research in the field.

arxiv情報

著者 Zhaomin Wu,Junyi Hou,Bingsheng He
発行日 2023-07-05 05:55:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク