Navigating Tabular Data Synthesis Research: Understanding User Needs and Tool Capabilities

要約

データ駆動型アプリケーションが急速に進歩する時代において、研究と実践の両方でデータの需要が高まっています。
合成データは、(プライバシー規制などにより)実際のデータが利用できない場合の代替手段として登場しました。
表形式データの合成には、特に (i) 欠損値、(ii) データセットの不均衡、(iii) 多様な列タイプ、(iv) 複雑なデータ分布の処理、および (i) 列の相関関係の維持、(ii) など、独特で複雑な課題があります。
)時間的依存関係、および(iii)元のデータセットに存在する整合性制約(機能的依存関係など)。
世代モデルのコンテキストでは最近大幅な進歩が見られましたが、今日の表形式データには万能のソリューションはなく、したがって、特定のタスクに適切なツールを選択することは簡単な作業ではありません。
このペーパーでは、表形式データ合成 (TDS) の最先端技術を調査し、一連の機能要件と非機能要件を定義することでユーザーのニーズを調査し、それらのニーズを満たすための課題をまとめます。
さらに、これらの要件に関して 36 の人気のある研究用 TDS ツールの報告されたパフォーマンスを評価し、ユーザーがアプリケーションに適した TDS ツールを見つけるのに役立つ決定ガイドを作成します。
結果として得られる意思決定ガイドでは、研究に関する重大なギャップも特定されます。

要約(オリジナル)

In an era of rapidly advancing data-driven applications, there is a growing demand for data in both research and practice. Synthetic data have emerged as an alternative when no real data is available (e.g., due to privacy regulations). Synthesizing tabular data presents unique and complex challenges, especially handling (i) missing values, (ii) dataset imbalance, (iii) diverse column types, and (iv) complex data distributions, as well as preserving (i) column correlations, (ii) temporal dependencies, and (iii) integrity constraints (e.g., functional dependencies) present in the original dataset. While substantial progress has been made recently in the context of generational models, there is no one-size-fits-all solution for tabular data today, and choosing the right tool for a given task is therefore no trivial task. In this paper, we survey the state of the art in Tabular Data Synthesis (TDS), examine the needs of users by defining a set of functional and non-functional requirements, and compile the challenges associated with meeting those needs. In addition, we evaluate the reported performance of 36 popular research TDS tools about these requirements and develop a decision guide to help users find suitable TDS tools for their applications. The resulting decision guide also identifies significant research gaps.

arxiv情報

著者 Maria F. Davila R.,Sven Groen,Fabian Panse,Wolfram Wingerath
発行日 2024-05-31 16:00:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.DB パーマリンク