Does Prompt Design Impact Quality of Data Imputation by LLMs?

要約

現実的な合成表形式データを生成することは、機械学習における重要な課題を提示します。
このデータにクラスの不均衡の問題が含まれている場合、複雑さの別の層が追加されます。
このペーパーでは、大規模な言語モデルのコンテキスト学習能力を活用する新しいトークン認識データ代入法を紹介します。
これは、構造化されたグループごとのCSVスタイルのプロンプト手法と、入力プロンプトの無関係なコンテキスト情報の排除の組み合わせによって達成されます。
このアプローチは、2つのクラスで均衡するバイナリ分類データセットでテストし、分類ベースの評価メトリックを使用して代入の有効性を評価します。
実験結果は、特にサイズが比較的小さいデータセットの場合、ベースラインプロンプトと比較して、補完的な品質を維持または改善しながら、アプローチが入力プロンプトサイズを大幅に削減することを示しています。
この提示された作業の貢献は2つあります – 1)合成データ生成のLLMを活用する際の迅速な設計の重要性に光を当て、2)計算制約内で実用的なソリューションを提供することにより、欠損データを持つクラス吸収データセットのLLMベースのデータ代入の重要なギャップに対処します。
私たちの仕事が、LLMSの信じられないほどの可能性を活用し、合成データ生成のための迅速なエンジニアリング技術を活用することについてのさらなる研究と議論を促進することを願っています。

要約(オリジナル)

Generating realistic synthetic tabular data presents a critical challenge in machine learning. It adds another layer of complexity when this data contain class imbalance problems. This paper presents a novel token-aware data imputation method that leverages the in-context learning capabilities of large language models. This is achieved through the combination of a structured group-wise CSV-style prompting technique and the elimination of irrelevant contextual information in the input prompt. We test this approach with two class-imbalanced binary classification datasets and evaluate the effectiveness of imputation using classification-based evaluation metrics. The experimental results demonstrate that our approach significantly reduces the input prompt size while maintaining or improving imputation quality compared to our baseline prompt, especially for datasets that are of relatively smaller in size. The contributions of this presented work is two-fold — 1) it sheds light on the importance of prompt design when leveraging LLMs for synthetic data generation and 2) it addresses a critical gap in LLM-based data imputation for class-imbalanced datasets with missing data by providing a practical solution within computational constraints. We hope that our work will foster further research and discussions about leveraging the incredible potential of LLMs and prompt engineering techniques for synthetic data generation.

arxiv情報

著者 Shreenidhi Srinivasan,Lydia Manikonda
発行日 2025-06-04 17:15:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.ET, cs.LG パーマリンク