Leveraging gradient-derived metrics for data selection and valuation in differentially private training

要約

【タイトル】
異機種間プライバシーに優れたトレーニングのための勾配由来値を利用したデータ選択および評価

【要約】
・機械学習モデルの協力的なトレーニングのために高品質のデータを入手することは課題である。
・その課題は、A)規制上の懸念、B)参加するためのインセンティブの不足によって引き起こされる。
・規制上の懸念には、プライバシー強化技術(PET)を利用することで対処できる。最も頻繁に使用される技術の1つが異機種間プライバシー(DP)トレーニングである。
・参加するためのインセンティブの不足には、どのデータポイントがモデルトレーニングに役立つかを特定し、そのデータを共有したデータオーナーに報酬を与えることで対処できる。
・ただし、DLにおけるDPは通常、非典型的な(しばしば情報を含む)データサンプルに逆転作用を引き起こし、個々の貢献の有用性を評価するのが困難になる。
・本研究では、プライバシーの厳重な設定でもプリンシプルに基づいたデータ選択ツールを提供する技術が存在するかどうかを調査する。勾配情報を利用して、プライバシーの厳重な設定におけるトレーニングサンプルの興味を引くことができる方法を示す。

要約(オリジナル)

Obtaining high-quality data for collaborative training of machine learning models can be a challenging task due to A) the regulatory concerns and B) lack of incentive to participate. The first issue can be addressed through the use of privacy enhancing technologies (PET), one of the most frequently used one being differentially private (DP) training. The second challenge can be addressed by identifying which data points can be beneficial for model training and rewarding data owners for sharing this data. However, DP in deep learning typically adversely affects atypical (often informative) data samples, making it difficult to assess the usefulness of individual contributions. In this work we investigate how to leverage gradient information to identify training samples of interest in private training settings. We show that there exist techniques which are able to provide the clients with the tools for principled data selection even in strictest privacy settings.

arxiv情報

著者 Dmitrii Usynin,Daniel Rueckert,Giorgios Kaissis
発行日 2023-05-04 15:44:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.AI, cs.CR, cs.LG パーマリンク