TAP4LLM: Table Provider on Sampling, Augmenting, and Packing Semi-structured Data for Large Language Model Reasoning


これらの困難なタスクでは、自由形式の自然言語 (NL) の質問と半構造化された表形式データの両方に対する推論が必要です。
これらの課題を軽減するために、多用途のサンプリング、拡張、およびパッキング手法でテーブル プロバイダー、つまり TAP4LLM を活用し、大規模言語モデル (LLM) を使用して効果的な半構造化データ推論を実現します。これにより、1) 生のテーブルをサブテーブルに分解します。
2)信頼できる知識源(Wolfram Alpha、Wikipediaなど)から関連する知識を取得しながら、生のテーブルから意味論的メタデータと統計的メタデータを抽出することによってテーブル情報を強化します。
3) トークン割り当てのトレードオフのバランスをとりながら、拡張された知識を含むサンプリングされたテーブルを LLM 推論のシーケンス プロンプトにパックします。
TAP4LLM により、さまざまなコンポーネントをプラグインとして使用できるようになり、さまざまな表形式タスクにおける LLM の構造化データの理解が強化されることを示します。


Table reasoning has shown remarkable progress in a wide range of table-based tasks. These challenging tasks require reasoning over both free-form natural language (NL) questions and semi-structured tabular data. However, previous table reasoning solutions suffer from significant performance degradation on ‘huge’ tables. In addition, most existing methods struggle to reason over complex questions since they lack essential information or they are scattered in different places. To alleviate these challenges, we exploit a table provider, namely TAP4LLM, on versatile sampling, augmentation, and packing methods to achieve effective semi-structured data reasoning using large language models (LLMs), which 1) decompose raw tables into sub-tables with specific rows or columns based on the rules or semantic similarity; 2) augment table information by extracting semantic and statistical metadata from raw tables while retrieving relevant knowledge from trustworthy knowledge sources (e.g., Wolfram Alpha, Wikipedia); 3) pack sampled tables with augmented knowledge into sequence prompts for LLMs reasoning while balancing the token allocation trade-off. We show that TAP4LLM allows for different components as plug-ins, enhancing LLMs’ understanding of structured data in diverse tabular tasks.


著者 Yuan Sui,Jiaru Zou,Mengyu Zhou,Xinyi He,Lun Du,Shi Han,Dongmei Zhang
発行日 2023-12-14 15:37:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク