What Is Synthetic Data? The Good, The Bad, and The Ugly

要約

データを共有することで、魅力的なアプリケーションや分析が可能になることがよくあります。しかし、多くの場合、貴重なデータセットには機密性の高い情報が含まれているため、それらを共有するとユーザーや組織のプライバシーが危険にさらされる可能性があります。そこで、研究者の間では、合成データを共有することが注目されています。これは、実際のデータに類似した、より正確には統計的な特性を持つデータセットを人工的に生成して公開するというものです。 では、どのようにして合成データを作成するのでしょうか?それは何に役立つのか?そのメリットとリスクは?未解決の研究課題は何なのか?この記事では、合成データをやさしく紹介し、その使用例、まだ解決されていないプライバシーの課題、そして効果的なプライバシー向上技術としての固有の限界について説明します。

要約(オリジナル)

Sharing data can often enable compelling applications and analytics. However, more often than not, valuable datasets contain information of sensitive nature, and thus sharing them can endanger the privacy of users and organizations. A possible alternative gaining momentum in the research community is to share synthetic data instead. The idea is to release artificially generated datasets that resemble the actual data — more precisely, having similar statistical properties. So how do you generate synthetic data? What is that useful for? What are the benefits and the risks? What are the open research questions that remain unanswered? In this article, we provide a gentle introduction to synthetic data and discuss its use cases, the privacy challenges that are still unaddressed, and its inherent limitations as an effective privacy-enhancing technology.

arxiv情報

著者 Emiliano De Cristofaro
発行日 2023-03-06 09:09:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CR, cs.CY パーマリンク