Auditing and Generating Synthetic Data with Controllable Trust Trade-offs

要約

現実世界のデータには、偏り、不均衡、プライバシー リスクが存在することがよくあります。
これらの問題に対処するために、合成データセットが登場しました。
このパラダイムは、生成 AI モデルに依存して、元のデータへの忠実性を維持しながら、偏りのないプライバシーを保護するデータを生成します。
ただし、合成データセットとモデルの信頼性を評価することは重要な課題です。
合成データセットと AI モデルを包括的に評価する総合的な監査フレームワークを導入します。
偏見と差別の防止に重点を置き、ソースデータへの忠実性を確保し、有用性、堅牢性、プライバシー保護を評価します。
私たちは、表形式、時系列、ビジョン、自然言語などのさまざまなデータ モダリティにまたがる、教育、医療、銀行、人事などの多様なユースケースにわたるさまざまな生成モデルを監査することで、フレームワークの有効性を実証します。
この総合的な評価は、法規制を遵守するために不可欠です。
信頼性インデックスを導入して、安全対策のトレードオフに基づいて合成データセットをランク付けします。
さらに、さまざまなデータ型にわたる「TrustFormers」で例示される、トレーニング中の信頼性主導のモデル選択と相互検証プロセスを紹介します。
このアプローチにより、合成データ作成における信頼性のトレードオフを制御できるようになります。
当社の監査フレームワークは、データ サイエンティスト、ガバナンス専門家、内部審査員、外部認証者、規制当局などの関係者間のコラボレーションを促進します。
この透明性のある報告は、偏見、差別、プライバシー侵害を防止し、ポリシーの遵守を確保し、説明責任、安全性、およびパフォーマンスの保証を提供するための標準的な慣行となるべきです。

要約(オリジナル)

Real-world data often exhibits bias, imbalance, and privacy risks. Synthetic datasets have emerged to address these issues. This paradigm relies on generative AI models to generate unbiased, privacy-preserving data while maintaining fidelity to the original data. However, assessing the trustworthiness of synthetic datasets and models is a critical challenge. We introduce a holistic auditing framework that comprehensively evaluates synthetic datasets and AI models. It focuses on preventing bias and discrimination, ensures fidelity to the source data, assesses utility, robustness, and privacy preservation. We demonstrate the framework’s effectiveness by auditing various generative models across diverse use cases like education, healthcare, banking, and human resources, spanning different data modalities such as tabular, time-series, vision, and natural language. This holistic assessment is essential for compliance with regulatory safeguards. We introduce a trustworthiness index to rank synthetic datasets based on their safeguards trade-offs. Furthermore, we present a trustworthiness-driven model selection and cross-validation process during training, exemplified with ‘TrustFormers’ across various data types. This approach allows for controllable trustworthiness trade-offs in synthetic data creation. Our auditing framework fosters collaboration among stakeholders, including data scientists, governance experts, internal reviewers, external certifiers, and regulators. This transparent reporting should become a standard practice to prevent bias, discrimination, and privacy violations, ensuring compliance with policies and providing accountability, safety, and performance guarantees.

arxiv情報

著者 Brian Belgodere,Pierre Dognin,Adam Ivankay,Igor Melnyk,Youssef Mroueh,Aleksandra Mojsilovic,Jiri Navratil,Apoorva Nitsure,Inkit Padhi,Mattia Rigotti,Jerret Ross,Yair Schiff,Radhika Vedpathak,Richard A. Young
発行日 2024-01-09 11:05:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, stat.ML パーマリンク