A Coupled Design of Exploiting Record Similarity for Practical Vertical Federated Learning

要約

連合学習は、生データを明らかにすることなく、さまざまな関係者間での共同学習を可能にする学習パラダイムです。
特に、関係者が同じサンプル セットを共有するが、部分的な機能のみを保持する垂直連合学習 (VFL) には、幅広い実世界のアプリケーションがあります。
ただし、VFL に関する既存の研究のほとんどは、「レコードのリンケージ」プロセスを無視しています。
彼らは、異なる関係者からのデータを正確にリンクできると仮定するか、各レコードを最も類似した隣接レコードと単純にリンクできると仮定してアルゴリズムを設計します。
これらのアプローチでは、類似性の低い他の記録から重要な特徴を捉えることができない場合があります。
さらに、既存のアプローチはトレーニング中にリンケージに関するフィードバックを提供しないため、このような不適切なリンケージをトレーニングによって修正することはできません。
この論文では、1 対多のリンケージをトレーニング プロセスに統合する新しい結合トレーニング パラダイム、FedSim を設計します。
FedSim は、ファジー識別子を使用して多くの実世界のアプリケーションで VFL を有効にするだけでなく、従来の VFL タスクでより優れたパフォーマンスを実現します。
さらに、類似点を共有することによって生じる追加のプライバシー リスクを理論的に分析します。
さまざまな類似性メトリックを使用した 8 つのデータセットに対する私たちの実験では、FedSim が他の最先端のベースラインよりも優れていることが示されています。
FedSim のコードは、https://github.com/Xtra-Computing/FedSim で入手できます。

要約(オリジナル)

Federated learning is a learning paradigm to enable collaborative learning across different parties without revealing raw data. Notably, vertical federated learning (VFL), where parties share the same set of samples but only hold partial features, has a wide range of real-world applications. However, most existing studies in VFL disregard the ‘record linkage’ process. They design algorithms either assuming the data from different parties can be exactly linked or simply linking each record with its most similar neighboring record. These approaches may fail to capture the key features from other less similar records. Moreover, such improper linkage cannot be corrected by training since existing approaches provide no feedback on linkage during training. In this paper, we design a novel coupled training paradigm, FedSim, that integrates one-to-many linkage into the training process. Besides enabling VFL in many real-world applications with fuzzy identifiers, FedSim also achieves better performance in traditional VFL tasks. Moreover, we theoretically analyze the additional privacy risk incurred by sharing similarities. Our experiments on eight datasets with various similarity metrics show that FedSim outperforms other state-of-the-art baselines. The codes of FedSim are available at https://github.com/Xtra-Computing/FedSim.

arxiv情報

著者 Zhaomin Wu,Qinbin Li,Bingsheng He
発行日 2023-03-23 16:19:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CR, cs.LG パーマリンク