Auditing and Generating Synthetic Data with Controllable Trust Trade-offs

要約

タイトル:コントロール可能な信頼度のトレードオフを有する合成データの監査および生成

要約:

– 現実世界で収集されたデータは、偏りがあったり、不均衡であったり、機密性が高く、安全性が脅かされる場合がある。
– この現実の問題に対処するため、合成データセットを作成するという考え方が生まれた。
– この新しいパラダイムでは、AIモデルを使用して、現実のデータに忠実でありながら、偏りがなく、プライバシーを保持した合成データを作成する。
– この取り組みが約束を守っているかどうかをどのように判断できるだろうか?本研究では、バイアスと差別防止、現実のデータに対する忠実度、有用性、堅牢性、プライバシー保護を中心とした総合的な評価を提供する監査フレームワークを提供する。
– このフレームワークを使用して、教育、医療、銀行、人材などの様々なユースケースにおいて、表形式から時系列、自然言語に至るまで、複数の合成モデルを監査している。
– このユースケースは、規制当局や政策決定者が徐々に強化している社会技術保障に準拠することを確認するために、総合的な評価の重要性を示している。
– そのため、私たちは、規定された保護および所望のトレードオフに基づいて複数の合成データセットをランク付けする信頼度指数を導入する。
– さらに、我々は、訓練ループで監査を行い、信頼性指向のモデル選択と交差検証手順を開発し、様々なモダリティを含むTrustFormersというクラスのトランスフォーマーモデルで示している。
– この信頼度に基づくモデル選択により、合成データの結果を信頼度のコントロールが可能。
– 最終的に、我々の監査フレームワークを、モデル開発から監査および認証までの様々な関係者を結びつけるワークフローとして提供している。

要約(オリジナル)

Data collected from the real world tends to be biased, unbalanced, and at risk of exposing sensitive and private information. This reality has given rise to the idea of creating synthetic datasets to alleviate risk, bias, harm, and privacy concerns inherent in the real data. This concept relies on Generative AI models to produce unbiased, privacy-preserving synthetic data while being true to the real data. In this new paradigm, how can we tell if this approach delivers on its promises? We present an auditing framework that offers a holistic assessment of synthetic datasets and AI models trained on them, centered around bias and discrimination prevention, fidelity to the real data, utility, robustness, and privacy preservation. We showcase our framework by auditing multiple generative models on diverse use cases, including education, healthcare, banking, human resources, and across different modalities, from tabular, to time-series, to natural language. Our use cases demonstrate the importance of a holistic assessment in order to ensure compliance with socio-technical safeguards that regulators and policymakers are increasingly enforcing. For this purpose, we introduce the trust index that ranks multiple synthetic datasets based on their prescribed safeguards and their desired trade-offs. Moreover, we devise a trust-index-driven model selection and cross-validation procedure via auditing in the training loop that we showcase on a class of transformer models that we dub TrustFormers, across different modalities. This trust-driven model selection allows for controllable trust trade-offs in the resulting synthetic data. We instrument our auditing framework with workflows that connect different stakeholders from model development to audit and certification via a synthetic data auditing report.

arxiv情報

著者 Brian Belgodere,Pierre Dognin,Adam Ivankay,Igor Melnyk,Youssef Mroueh,Aleksandra Mojsilovic,Jiri Navartil,Apoorva Nitsure,Inkit Padhi,Mattia Rigotti,Jerret Ross,Yair Schiff,Radhika Vedpathak,Richard A. Young
発行日 2023-04-21 09:03:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.AI, cs.LG, stat.ML パーマリンク