要約
実際の表形式データの LLM ベースのデータ生成は、列の説明に使用される特徴名に十分なセマンティック コンテキストが欠如しているため、問題が発生する可能性があります。
私たちは、ドメイン固有の洞察でプロンプトを充実させることで、データ生成の品質と効率の両方を向上させることができると仮説を立てています。
この仮説を検証するために、専門家ガイド、LLM ガイド、および Novel-Mapping という 3 つのプロンプト構築プロトコルを検討します。
最近提案された GReaT フレームワークを使用した実証研究を通じて、コンテキストを強化したプロンプトがデータ生成の品質とトレーニング効率の大幅な向上につながることがわかりました。
要約(オリジナル)
LLM-based data generation for real-world tabular data can be challenged by the lack of sufficient semantic context in feature names used to describe columns. We hypothesize that enriching prompts with domain-specific insights can improve both the quality and efficiency of data generation. To test this hypothesis, we explore three prompt construction protocols: Expert-guided, LLM-guided, and Novel-Mapping. Through empirical studies with the recently proposed GReaT framework, we find that context-enriched prompts lead to significantly improved data generation quality and training efficiency.
arxiv情報
| 著者 | Banooqa Banday,Kowshik Thopalli,Tanzima Z. Islam,Jayaraman J. Thiagarajan |
| 発行日 | 2024-09-06 00:02:09+00:00 |
| arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google