要約
セキュアなマルチパーティ計算に基づくデシジョン ツリーのマルチパーティ トレーニング フレームワークにより、複数のパーティがプライバシーを保護しながら分散プライベート データ上で高性能モデルをトレーニングできるようになります。
トレーニング プロセスには基本的に、分割基準 (ジニ不純物など) に従ってデータセットを頻繁に分割することが含まれます。
ただし、デシジョン ツリーの既存のマルチパーティ トレーニング フレームワークは、次の問題により通信が非効率であることが実証されています。 (1) 連続属性を持つデータセットを安全に分割する際に、膨大な通信オーバーヘッドが発生します。
(2) 分割基準の安全な計算に対応するために、ほとんどすべての計算を大きなリング上で実行するため、膨大な通信オーバーヘッドに悩まされます。
この論文では、通信最適化によるデシジョンツリーのための効率的な三者間トレーニングフレームワーク、すなわちEntsを提示することを目的としています。
最初の問題では、連続属性を持つデータセットを効率的かつ安全に分割するための安全な基数ソート プロトコルに基づく一連のトレーニング プロトコルを紹介します。
2 番目の課題では、大規模なリング上でほぼすべての計算を実行することによって発生する通信オーバーヘッドを削減するために、小さなリングと大きなリングの間でシェアを変換する効率的なシェア変換プロトコルを提案します。
広く使用されている 8 つのデータセットからの実験結果は、Ents が最先端のフレームワークよりも通信サイズで $5.5\times \sim 9.3\times$、通信ラウンドで $3.9\times \sim 5.3\times$ 優れていることを示しています。
トレーニング時間に関しては、Ents は $3.5\times \sim 6.7\times$ の改善をもたらします。
その実用性を実証するために、Ents では、WAN 設定で 245,000 を超えるサンプルを含む、広く使用されている現実世界のデータセット (スキン セグメンテーション) でデシジョン ツリーを安全にトレーニングするのに 3 時間未満しかかかりません。
要約(オリジナル)
Multi-party training frameworks for decision trees based on secure multi-party computation enable multiple parties to train high-performance models on distributed private data with privacy preservation. The training process essentially involves frequent dataset splitting according to the splitting criterion (e.g. Gini impurity). However, existing multi-party training frameworks for decision trees demonstrate communication inefficiency due to the following issues: (1) They suffer from huge communication overhead in securely splitting a dataset with continuous attributes. (2) They suffer from huge communication overhead due to performing almost all the computations on a large ring to accommodate the secure computations for the splitting criterion. In this paper, we are motivated to present an efficient three-party training framework, namely Ents, for decision trees by communication optimization. For the first issue, we present a series of training protocols based on the secure radix sort protocols to efficiently and securely split a dataset with continuous attributes. For the second issue, we propose an efficient share conversion protocol to convert shares between a small ring and a large ring to reduce the communication overhead incurred by performing almost all the computations on a large ring. Experimental results from eight widely used datasets show that Ents outperforms state-of-the-art frameworks by $5.5\times \sim 9.3\times$ in communication sizes and $3.9\times \sim 5.3\times$ in communication rounds. In terms of training time, Ents yields an improvement of $3.5\times \sim 6.7\times$. To demonstrate its practicality, Ents requires less than three hours to securely train a decision tree on a widely used real-world dataset (Skin Segmentation) with more than 245,000 samples in the WAN setting.
arxiv情報
著者 | Guopeng Lin,Weili Han,Wenqiang Ruan,Ruisheng Zhou,Lushan Song,Bingshuai Li,Yunfeng Shao |
発行日 | 2024-07-02 15:33:52+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google