要約
さまざまな機械学習モデルの品質を比較するためのパフォーマンス測定として AUC を計算することは、多くの研究プロジェクトの最終ステップの 1 つです。
これらの手法の多くはプライバシーに敏感なデータでトレーニングされており、トレーニングやテストのためにデータセットを 1 か所で共有または共同使用できない場合は、$\epsilon$-差分プライバシー、フェデレーテッド機械学習、暗号化など、いくつかの異なるアプローチがあります。
この設定では、ラベルにプライバシーに敏感な情報も含まれている可能性があるため、グローバル AUC を計算することも問題になる可能性があります。
この問題に対処するための $\epsilon$-差分プライバシーに基づくアプローチはありましたが、私たちの知る限り、正確なプライバシー保護ソリューションは導入されていません。
この論文では、複数のソースから個別にソートされたリストをプライベートに結合して、プールされた元のテストサンプルで得られる正確な AUC を計算する、ppAURORA と呼ばれる MPC ベースのソリューションを提案します。
ppAURORA を使用すると、予測信頼値間に関係がある場合でも、精度と再現率の正確な領域および受信機動作特性曲線を計算できます。
私たちは ppAURORA を使用して、急性骨髄性白血病の治療反応と心臓病をそれぞれ予測する 2 つの異なるモデルを評価します。
また、合成データ実験を通じてそのスケーラビリティも評価します。
これらすべての実験は、半正直な敵対者の設定に従って平文のプールされたテストサンプルで取得できるのとまったく同じAUCを、両方の評価指標で効率的かつ非公開で計算していることを示しています。
要約(オリジナル)
Computing an AUC as a performance measure to compare the quality of different machine learning models is one of the final steps of many research projects. Many of these methods are trained on privacy-sensitive data and there are several different approaches like $\epsilon$-differential privacy, federated machine learning and cryptography if the datasets cannot be shared or used jointly at one place for training and/or testing. In this setting, it can also be a problem to compute the global AUC, since the labels might also contain privacy-sensitive information. There have been approaches based on $\epsilon$-differential privacy to address this problem, but to the best of our knowledge, no exact privacy preserving solution has been introduced. In this paper, we propose an MPC-based solution, called ppAURORA, with private merging of individually sorted lists from multiple sources to compute the exact AUC as one could obtain on the pooled original test samples. With ppAURORA, the computation of the exact area under precision-recall and receiver operating characteristic curves is possible even when ties between prediction confidence values exist. We use ppAURORA to evaluate two different models predicting acute myeloid leukemia therapy response and heart disease, respectively. We also assess its scalability via synthetic data experiments. All these experiments show that we efficiently and privately compute the exact same AUC with both evaluation metrics as one can obtain on the pooled test samples in plaintext according to the semi-honest adversary setting.
arxiv情報
著者 | Ali Burak Ünal,Nico Pfeifer,Mete Akgün |
発行日 | 2023-06-15 16:09:19+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google