Are LLMs Naturally Good at Synthetic Tabular Data Generation?

要約

大規模言語モデル (LLM) は、合成テキストと画像を生成する能力を実証しています。
しかし、表形式のデータ (おそらくビジネスや科学のアプリケーションで最も一般的なデータ型) を生成する可能性については、ほとんど研究されていません。
この論文は、LLM をそのまま使用したり、従来の微調整後に使用したりすると、合成テーブル ジェネレーターとしては非常に不十分であることを示しています。
LLM の自己回帰的な性質により、ランダムな順序の並べ替えによる微調整は関数の依存関係をモデル化する重要性に反し、LLM は分布の条件付き混合 (現実世界の制約を把握するための鍵) をモデル化できなくなります。
LLM を順列認識させることで、これらの欠点の一部を克服する方法を紹介します。

要約(オリジナル)

Large language models (LLMs) have demonstrated their prowess in generating synthetic text and images; however, their potential for generating tabular data — arguably the most common data type in business and scientific applications — is largely underexplored. This paper demonstrates that LLMs, used as-is, or after traditional fine-tuning, are severely inadequate as synthetic table generators. Due to the autoregressive nature of LLMs, fine-tuning with random order permutation runs counter to the importance of modeling functional dependencies, and renders LLMs unable to model conditional mixtures of distributions (key to capturing real world constraints). We showcase how LLMs can be made to overcome some of these deficiencies by making them permutation-aware.

arxiv情報

著者 Shengzhe Xu,Cho-Ting Lee,Mandar Sharma,Raquib Bin Yousuf,Nikhil Muralidhar,Naren Ramakrishnan
発行日 2024-06-21 14:00:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク