Bridging the Gap: Deciphering Tabular Data Using Large Language Model

要約

自然言語処理の分野では、表形式のデータの理解が常に学術研究の焦点となっています。
ChatGPT などに代表される拡張的な言語モデルの出現により、研究者がテーブルベースの質問応答に関連するタスクにこれらのモデルを利用することを目指す取り組みの波が起こりました。
私たちの調査の中心は、テーブルの構造の複雑さと固有のコンテンツの両方を識別する際に、このような大規模な言語モデルの適性を増幅し、最終的には適切なクエリに対して情報に基づいた応答を提供する能力を促進する方法論の解明です。
この目的を達成するために、私たちは、拡張的な言語モデルとシームレスに統合するためのテーブルのシリアル化に特化した独特のモジュールを設計しました。
さらに、潜在的な不正確さを修正するための修正メカニズムをモデル内に導入しました。
実験結果は、私たちが提案した方法は全体的なメトリクスでは SOTA に約 11.7% 及ばないものの、特定のデータセットでのテストでは SOTA を約 1.2% 上回っていることを示しています。
この研究は、テーブルベースの質問応答タスクに大規模な言語モデルを初めて適用し、テーブル構造とコンテンツの両方に対するモデルの理解を強化しました。

要約(オリジナル)

In the realm of natural language processing, the understanding of tabular data has perpetually stood as a focal point of scholarly inquiry. The emergence of expansive language models, exemplified by the likes of ChatGPT, has ushered in a wave of endeavors wherein researchers aim to harness these models for tasks related to table-based question answering. Central to our investigative pursuits is the elucidation of methodologies that amplify the aptitude of such large language models in discerning both the structural intricacies and inherent content of tables, ultimately facilitating their capacity to provide informed responses to pertinent queries. To this end, we have architected a distinctive module dedicated to the serialization of tables for seamless integration with expansive language models. Additionally, we’ve instituted a corrective mechanism within the model to rectify potential inaccuracies. Experimental results indicate that, although our proposed method trails the SOTA by approximately 11.7% in overall metrics, it surpasses the SOTA by about 1.2% in tests on specific datasets. This research marks the first application of large language models to table-based question answering tasks, enhancing the model’s comprehension of both table structures and content.

arxiv情報

著者 Hengyuan Zhang,Peng Chang,Zongcheng Ji
発行日 2023-08-28 14:07:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク