Auditing and Generating Synthetic Data with Controllable Trust Trade-offs

要約

タイトル: 可制御な信頼性トレードオフを持つ監査と合成データの生成

要約:
– 現実の世界から収集されたデータは、偏りがあり、バランスが取れておらず、機密情報を公開するリスクがあるため、合成データを作成することが考えられるようになってきている。
– この概念は、Generative AIモデルに頼って、真実のデータに忠実である一方、偏りがなくプライバシーを保護する合成データを生成する。
– この新しいパラダイムでは、このアプローチが約束を果たしているかどうかをどうやって知ることができるのだろうか。 本論文では、バイアスと差別の予防、真実のデータ、ユーティリティ、強健性、プライバシーの保護を中心に、合成データセットとそれらにトレーニングされたAIモデルの包括的な評価を提供する監査フレームワークを提供する。
– 教育、ヘルスケア、バンキング、人材など、多様な用途で複数の生成モデルを監査することで、我々のフレームワークを紹介している。
– このフレームワークは、規制当局や政策立案者がますます強制している社会技術に対する規制遵守を保証するために、総合的な評価が重要であることを示している。この目的のために、我々はトラストインデックスを紹介し、所定の安全保障と望ましいトレードオフに基づいて複数の合成データセットをランク付けする。
– さらに、私たちは、希望するトレードオフを持つ可制御な信頼性トレードオフを可能にするトラストインデックス駆動型モデル選択と交差検証手順を展開し、異なるモダリティを跨いでTrustFormersと呼ばれるトランスフォーマーモデルのクラスで紹介する。
– 我々の監査フレームワークは、合成データ監査レポートを介してモデル開発から監査、認証までのさまざまな関係者を接続するワークフローで構成されている。

要約(オリジナル)

Data collected from the real world tends to be biased, unbalanced, and at risk of exposing sensitive and private information. This reality has given rise to the idea of creating synthetic datasets to alleviate risk, bias, harm, and privacy concerns inherent in the real data. This concept relies on Generative AI models to produce unbiased, privacy-preserving synthetic data while being true to the real data. In this new paradigm, how can we tell if this approach delivers on its promises? We present an auditing framework that offers a holistic assessment of synthetic datasets and AI models trained on them, centered around bias and discrimination prevention, fidelity to the real data, utility, robustness, and privacy preservation. We showcase our framework by auditing multiple generative models on diverse use cases, including education, healthcare, banking, human resources, and across different modalities, from tabular, to time-series, to natural language. Our use cases demonstrate the importance of a holistic assessment in order to ensure compliance with socio-technical safeguards that regulators and policymakers are increasingly enforcing. For this purpose, we introduce the trust index that ranks multiple synthetic datasets based on their prescribed safeguards and their desired trade-offs. Moreover, we devise a trust-index-driven model selection and cross-validation procedure via auditing in the training loop that we showcase on a class of transformer models that we dub TrustFormers, across different modalities. This trust-driven model selection allows for controllable trust trade-offs in the resulting synthetic data. We instrument our auditing framework with workflows that connect different stakeholders from model development to audit and certification via a synthetic data auditing report.

arxiv情報

著者 Brian Belgodere,Pierre Dognin,Adam Ivankay,Igor Melnyk,Youssef Mroueh,Aleksandra Mojsilovic,Jiri Navratil,Apoorva Nitsure,Inkit Padhi,Mattia Rigotti,Jerret Ross,Yair Schiff,Radhika Vedpathak,Richard A. Young
発行日 2023-05-02 23:28:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.AI, cs.LG, stat.ML パーマリンク