Scalable In-Context Learning on Tabular Data via Retrieval-Augmented Large Language Models

要約

最近の研究では、大規模な言語モデル(LLM)は、表形式データのトレーニング後にカスタマイズされた場合、一般的な表形式のコンテキスト学習(TABICL)機能を獲得できることが示されています。
これらのモデルは、多様なデータスキーマとさまざまなタスクドメインを越えて効果的に転送できます。
ただし、既存のLLMベースのTAPICLアプローチは、LLMSのシーケンス長の制限により、少数のショットシナリオに制約されます。これは、プレーンテキストで表される表面インスタンスがかなりのトークンを消費するためです。
この制限に対処し、データサイズのスケーラブルなTabiclを有効にするために、表形式データに合わせた検索されたAugmented LLMSを提案します。
当社のアプローチには、LLMの検索ガイド付き命令調整と組み合わせたカスタマイズされた検索モジュールが組み込まれています。
これにより、LLMはより大きなデータセットを効果的に活用し、69の広く認識されているデータセットでパフォーマンスが大幅に向上し、有望なスケーリング動作を実証することができます。
最先端の表形式モデルとの広範な比較により、LLMベースのTabiclは全体的なパフォーマンスでよく調整された数値モデルに遅れをとっていますが、限られたコンテキストで強力なアルゴリズムを明らかにし、アンサンブルの多様性を強化し、特定のデータセットに優れています。
これらのユニークなプロパティは、スケーラブルな表形式データ学習のための普遍的でアクセス可能なインターフェイスとしての言語の可能性を強調しています。

要約(オリジナル)

Recent studies have shown that large language models (LLMs), when customized with post-training on tabular data, can acquire general tabular in-context learning (TabICL) capabilities. These models are able to transfer effectively across diverse data schemas and different task domains. However, existing LLM-based TabICL approaches are constrained to few-shot scenarios due to the sequence length limitations of LLMs, as tabular instances represented in plain text consume substantial tokens. To address this limitation and enable scalable TabICL for any data size, we propose retrieval-augmented LLMs tailored to tabular data. Our approach incorporates a customized retrieval module, combined with retrieval-guided instruction-tuning for LLMs. This enables LLMs to effectively leverage larger datasets, achieving significantly improved performance across 69 widely recognized datasets and demonstrating promising scaling behavior. Extensive comparisons with state-of-the-art tabular models reveal that, while LLM-based TabICL still lags behind well-tuned numeric models in overall performance, it uncovers powerful algorithms under limited contexts, enhances ensemble diversity, and excels on specific datasets. These unique properties underscore the potential of language as a universal and accessible interface for scalable tabular data learning.

arxiv情報

著者 Xumeng Wen,Shun Zheng,Zhen Xu,Yiming Sun,Jiang Bian
発行日 2025-02-05 13:16:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク