要約
合成データは、AI開発のデータ需要の増加に対する費用対効果の高いソリューションとして牽引力を獲得しており、既存の知識または実際のイベントからキャプチャされた派生データのいずれかから生成できます。
合成データ生成のソースと使用された手法は、その残留プライバシーリスクに大きく影響し、したがって共有の機会に影響を与えます。
合成データ型の従来の分類は、新しい生成技術に適合せず、分類を実用的なニーズに合わせてより適切に合わせる必要があります。
規制政策決定を支援するためのプライバシー評価をよりよくサポートする合成データ型をグループ化する新しい方法を提案します。
私たちの斬新な分類は、深い生成方法などの新しい進歩に柔軟性を提供し、将来のアプリケーションのためのより実用的なフレームワークを提供します。
要約(オリジナル)
Synthetic data is gaining traction as a cost-effective solution for the increasing data demands of AI development and can be generated either from existing knowledge or derived data captured from real-world events. The source of the synthetic data generation and the technique used significantly impacts its residual privacy risk and therefore its opportunity for sharing. Traditional classification of synthetic data types no longer fit the newer generation techniques and there is a need to better align the classification with practical needs. We suggest a new way of grouping synthetic data types that better supports privacy evaluations to aid regulatory policymaking. Our novel classification provides flexibility to new advancements like deep generative methods and offers a more practical framework for future applications.
arxiv情報
著者 | Vibeke Binz Vallevik,Serena Elizabeth Marshall,Aleksandar Babic,Jan Franz Nygaard |
発行日 | 2025-04-02 14:19:31+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google