Leveraging gradient-derived metrics for data selection and valuation in differentially private training

要約

タイトル:差分プライバシー学習におけるデータ選択および評価のための勾配由来指標の活用
要約:
– 機械学習モデルの共同トレーニングの高品質なデータの獲得は、A)規制上の懸念、およびB)参加の動機づけの欠如のため、困難な課題である。
– 最初の課題は、プライバシー強化技術の(PET)の使用を介して解決できる。その1つが、差分プライバシー(DP)トレーニングであり、最も頻繁に使用されている技術の1つである。
– 二番目の問題は、どのデータ点がモデルトレーニングに有益であり、データ所有者にそのデータを共有することで報酬を与えることができるかを特定することで対応できます。
– ただし、深層学習におけるDPは、典型的でない(しばしば情報提供がある)データサンプルに不利になるため、個々の貢献価値を評価することが困難です。
– この研究では、勾配情報を活用して、プライベートなトレーニング設定で興味深いトレーニングサンプルを特定する方法を調査しています。
– 最も厳密なプライバシー設定でも、クライアントに原則に基づいたデータ選択のツールを提供できる技術が存在することを示しています。

要点:
– 機械学習モデルの共同トレーニングの高品質なデータ獲得が課題。
– 差分プライバシー(DP)トレーニングが解決策。
– データの有益性を特定し、所有者に報酬を与えることで、参加動機づけを促進できる。
– DPにより、情報提供がある「典型的ではない」データサンプルには不利。
– 勾配情報を活用して、プライベートなトレーニング設定で興味深いトレーニングサンプルを特定する。
– 最も厳密なプライバシー設定でも、原則的なデータ選択のツール提供が可能。

要約(オリジナル)

Obtaining high-quality data for collaborative training of machine learning models can be a challenging task due to A) the regulatory concerns and B) lack of incentive to participate. The first issue can be addressed through the use of privacy enhancing technologies (PET), one of the most frequently used one being differentially private (DP) training. The second challenge can be addressed by identifying which data points can be beneficial for model training and rewarding data owners for sharing this data. However, DP in deep learning typically adversely affects atypical (often informative) data samples, making it difficult to assess the usefulness of individual contributions. In this work we investigate how to leverage gradient information to identify training samples of interest in private training settings. We show that there exist techniques which are able to provide the clients with the tools for principled data selection even in strictest privacy settings.

arxiv情報

著者 Dmitrii Usynin,Daniel Rueckert,Georgios Kaissis
発行日 2023-05-05 09:15:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.AI, cs.CR, cs.LG パーマリンク