Artificial Inductive Bias for Synthetic Tabular Data Generation in Data-Scarce Scenarios

要約

深層生成モデル(Deep Generative Models:DGM)を用いた合成表データ生成は、データ不足とプライバシーの懸念に対する説得力のある解決策を提供するが、その有効性は、実世界のアプリケーションではしばしば利用できない、相当な学習データに依存する。本稿では、限られた実データ環境において、DGMを用いて現実的で信頼性の高い合成表データを生成するための新しい方法論を提案することで、この課題に取り組む。我々のアプローチは、転移学習とメタ学習技術を通して、DGMに人工的な帰納バイアスを生成するいくつかの方法を提案する。このフレームワークの中で4つの異なる方法を探索し比較することで、事前学習やモデルの平均化などの転移学習戦略が、モデル無視メタ学習やドメインランダム探索などのメタ学習アプローチよりも優れていることを実証する。我々は、Variational AutoencoderとGenerative Adversarial Networkという2つの最先端のDGMを用いて、我々のアプローチを検証し、我々の人工的な帰納バイアスが、Jensen-Shannon divergenceで測定されるように、優れた合成データの品質を促進し、我々の提案するアプローチを用いた場合に、最大50%の相対的な利得を達成することを示す。この方法論は、様々なDGMや機械学習タスク、特にデータ不足がしばしば重要な問題となるヘルスケアや金融のような分野で広く適用可能である。

要約(オリジナル)

While synthetic tabular data generation using Deep Generative Models (DGMs) offers a compelling solution to data scarcity and privacy concerns, their effectiveness relies on substantial training data, often unavailable in real-world applications. This paper addresses this challenge by proposing a novel methodology for generating realistic and reliable synthetic tabular data with DGMs in limited real-data environments. Our approach proposes several ways to generate an artificial inductive bias in a DGM through transfer learning and meta-learning techniques. We explore and compare four different methods within this framework, demonstrating that transfer learning strategies like pre-training and model averaging outperform meta-learning approaches, like Model-Agnostic Meta-Learning, and Domain Randomized Search. We validate our approach using two state-of-the-art DGMs, namely, a Variational Autoencoder and a Generative Adversarial Network, to show that our artificial inductive bias fuels superior synthetic data quality, as measured by Jensen-Shannon divergence, achieving relative gains of up to 50\% when using our proposed approach. This methodology has broad applicability in various DGMs and machine learning tasks, particularly in areas like healthcare and finance, where data scarcity is often a critical issue.

arxiv情報

著者 Patricia A. Apellániz,Ana Jiménez,Borja Arroyo Galende,Juan Parras,Santiago Zazo
発行日 2024-07-03 12:53:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.LG, I.2.0 パーマリンク