要約
大規模言語モデル(Large Language Model: LLM)は、表形式の合成データ生成において有望視されているが、既存の手法では、特にカテゴリー変数間の複雑な特徴依存関係を保持するのに苦労している。本研究では、LLMを活用して条件分布を推定し、より正確でスケーラブルなデータ合成を可能にする確率駆動型プロンプティングアプローチを紹介する。その結果、LLMで生成された表形式データの統計的忠実度を向上させる確率分布のプロンプト化の可能性が強調された。
要約(オリジナル)
Large language models (LLMs) have shown promise in synthetic tabular data generation, yet existing methods struggle to preserve complex feature dependencies, particularly among categorical variables. This work introduces a probability-driven prompting approach that leverages LLMs to estimate conditional distributions, enabling more accurate and scalable data synthesis. The results highlight the potential of prompting probobility distributions to enhance the statistical fidelity of LLM-generated tabular data.
arxiv情報
著者 | Andrey Sidorenko |
発行日 | 2025-05-05 14:05:15+00:00 |
arxivサイト | arxiv_id(pdf) |