要約
言語モデル (LM) の最近の進歩により、主に表を操作および分析するプログラム支援メカニズムを通じて、表形式のデータを推論する能力が著しく強化されました。
ただし、これらの方法ではテーブル全体を入力として必要とすることが多く、位置の偏りやコンテキストの長さの制約によりスケーラビリティの課題が生じます。
これらの課題に対応するために、LM ベースのテーブルを理解するために特別に設計された検索拡張生成 (RAG) フレームワークである TableRAG を紹介します。
TableRAG は、スキーマおよびセルの取得と組み合わせたクエリ拡張を利用して、LM に提供する前に重要な情報を正確に特定します。
これにより、より効率的なデータのエンコードと正確な取得が可能になり、プロンプトの長さが大幅に短縮され、情報損失が軽減されます。
TableRAG の有効性を大規模に徹底的に評価するために、Arcade データセットと BIRD-SQL データセットから 2 つの新しい 100 万トークン ベンチマークを開発しました。
私たちの結果は、TableRAG の検索設計が最高の検索品質を達成し、大規模なテーブルの理解における新しい最先端のパフォーマンスにつながることを示しています。
要約(オリジナル)
Recent advancements in language models (LMs) have notably enhanced their ability to reason with tabular data, primarily through program-aided mechanisms that manipulate and analyze tables. However, these methods often require the entire table as input, leading to scalability challenges due to the positional bias or context length constraints. In response to these challenges, we introduce TableRAG, a Retrieval-Augmented Generation (RAG) framework specifically designed for LM-based table understanding. TableRAG leverages query expansion combined with schema and cell retrieval to pinpoint crucial information before providing it to the LMs. This enables more efficient data encoding and precise retrieval, significantly reducing prompt lengths and mitigating information loss. We have developed two new million-token benchmarks from the Arcade and BIRD-SQL datasets to thoroughly evaluate TableRAG’s effectiveness at scale. Our results demonstrate that TableRAG’s retrieval design achieves the highest retrieval quality, leading to the new state-of-the-art performance on large-scale table understanding.
arxiv情報
著者 | Si-An Chen,Lesly Miculicich,Julian Martin Eisenschlos,Zifeng Wang,Zilong Wang,Yanfei Chen,Yasuhisa Fujii,Hsuan-Tien Lin,Chen-Yu Lee,Tomas Pfister |
発行日 | 2024-12-26 13:58:31+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google