A Note on Statistically Accurate Tabular Data Generation Using Large Language Models

要約

大規模な言語モデル(LLM)は、合成表形式データ生成に有望を示していますが、既存の方法は、特にカテゴリ変数の間で複雑な特徴依存関係を維持するのに苦労しています。
この作業では、LLMを活用して条件付き分布を推定する確率駆動型プロンプトアプローチを導入し、より正確でスケーラブルなデータ合成を可能にします。
結果は、LLM生成された表形式データの統計的忠実度を高めるために確率分布を促す可能性を強調しています。

要約(オリジナル)

Large language models (LLMs) have shown promise in synthetic tabular data generation, yet existing methods struggle to preserve complex feature dependencies, particularly among categorical variables. This work introduces a probability-driven prompting approach that leverages LLMs to estimate conditional distributions, enabling more accurate and scalable data synthesis. The results highlight the potential of prompting probability distributions to enhance the statistical fidelity of LLM-generated tabular data.

arxiv情報

著者 Andrey Sidorenko
発行日 2025-05-06 08:34:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク