Attesting Distributional Properties of Training Data for Machine Learning


機械学習 (ML) の成功に伴い、その信頼性についての懸念が高まっています。
いくつかの管轄区域が ML 規制の枠組みを準備しています。
そのような懸念の 1 つは、モデル トレーニング データが特定の機密属性に対して望ましい分布特性を持っていることを確認することです。
たとえば、規制草案では、モデル トレーナーは、トレーニング データセットが母集団の多様性を反映するなど、特定の分布特性を持っていることを示す必要があるとしています。
我々は、証明者 (例: モデルトレーナー) が、データを明らかにすることなく検証者 (例: 顧客) に対してトレーニングデータの関連する分布特性を実証できるようにするプロパティ証明の概念を提案します。
プロパティ推論と暗号メカニズムを組み合わせた効果的なハイブリッド プロパティ証明を提案します。


The success of machine learning (ML) has been accompanied by increased concerns about its trustworthiness. Several jurisdictions are preparing ML regulatory frameworks. One such concern is ensuring that model training data has desirable distributional properties for certain sensitive attributes. For example, draft regulations indicate that model trainers are required to show that training datasets have specific distributional properties, such as reflecting diversity of the population. We propose the notion of property attestation allowing a prover (e.g., model trainer) to demonstrate relevant distributional properties of training data to a verifier (e.g., a customer) without revealing the data. We present an effective hybrid property attestation combining property inference with cryptographic mechanisms.


著者 Vasisht Duddu,Anudeep Das,Nora Khayata,Hossein Yalame,Thomas Schneider,N. Asokan
発行日 2023-12-22 17:25:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, Google

カテゴリー: cs.CR, cs.LG パーマリンク