Unleashing the Potential of Large Language Models for Predictive Tabular Tasks in Data Science

要約

データサイエンスの領域において、分類、回帰、欠損値のインピュテーションといった予測タスクは、表データに関連する一般的に遭遇する課題である。本研究では、これらの予測タスクに対処するために大規模言語モデル(LLM)を適用することを試みる。LLMは自然言語を理解することに長けているにもかかわらず、構造化された表データを扱うには不十分である。この限界は、LLMが基礎トレーニング中に表形式データの複雑さに触れていないことに起因する。我々の研究は、このギャップを軽減することを目的とし、説明文が注釈された表の包括的なコーパスを作成し、この充実したデータセット上でLlama-2の大規模な学習を実行する。さらに、学習したモデルをゼロショット予測、少数ショット予測、およびコンテキスト内学習シナリオに適用する実用的なアプリケーションを調査する。広範な実験を通して、我々の方法論は既存のベンチマークを大幅に改善した。これらの進歩は、データサイエンスにおける表に関連する問題を解決するためにLLMの学習を調整することの有効性を強調し、それにより、表のインテリジェンスを強化するためのLLMの活用における新たなベンチマークを確立する。

要約(オリジナル)

In the domain of data science, the predictive tasks of classification, regression, and imputation of missing values are commonly encountered challenges associated with tabular data. This research endeavors to apply Large Language Models (LLMs) towards addressing these predictive tasks. Despite their proficiency in comprehending natural language, LLMs fall short in dealing with structured tabular data. This limitation stems from their lacking exposure to the intricacies of tabular data during their foundational training. Our research aims to mitigate this gap by compiling a comprehensive corpus of tables annotated with instructions and executing large-scale training of Llama-2 on this enriched dataset. Furthermore, we investigate the practical application of applying the trained model to zero-shot prediction, few-shot prediction, and in-context learning scenarios. Through extensive experiments, our methodology has shown significant improvements over existing benchmarks. These advancements highlight the efficacy of tailoring LLM training to solve table-related problems in data science, thereby establishing a new benchmark in the utilization of LLMs for enhancing tabular intelligence.

arxiv情報

著者 Yazheng Yang,Yuqi Wang,Sankalok Sen,Lei Li,Qi Liu
発行日 2024-04-04 06:28:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.LG パーマリンク