On the Robustness of Language Models for Tabular Question Answering

要約

大規模言語モデル (LLM) は、当初はさまざまなテキスト理解タスクに取り組むことが示されていましたが、特別なトレーニングなしで表理解タスクにも取り組むことが驚くべきことに示されました。
これまでの研究では、表形式のデータセット タスクを使用した LLM 機能を検討していましたが、私たちの研究では、$\textit{コンテキスト内学習}$、$ \textit{モデル スケール}$、$\textit{命令チューニング}$、$\ の影響を評価しました。
表形式質問応答 (TQA) に関する textit{ドメイン バイアス}$。
ウィキペディアベースの $\textbf{WTQ}$ および財務レポートベースの $\textbf{TAT-QA}$ TQA データセットにおける LLM の堅牢性を、さまざまな拡張や摂動の下で表形式データを堅牢に解釈する能力に焦点を当てて評価します。
私たちの調査結果は、命令によってパフォーマンスが大幅に向上し、Llama3 などの最近のモデルが以前のバージョンよりも優れた堅牢性を示していることを示しています。
ただし、特に WTQ では、データ汚染と実用的な信頼性の問題が依然として残ります。
表理解のためのより信頼性の高い LLM を開発するには、構造を認識した自己注意メカニズムやドメイン固有の表形式データのより適切な処理など、改善された方法論の必要性を強調します。

要約(オリジナル)

Large Language Models (LLMs), originally shown to ace various text comprehension tasks have also remarkably been shown to tackle table comprehension tasks without specific training. While previous research has explored LLM capabilities with tabular dataset tasks, our study assesses the influence of $\textit{in-context learning}$,$ \textit{model scale}$, $\textit{instruction tuning}$, and $\textit{domain biases}$ on Tabular Question Answering (TQA). We evaluate the robustness of LLMs on Wikipedia-based $\textbf{WTQ}$ and financial report-based $\textbf{TAT-QA}$ TQA datasets, focusing on their ability to robustly interpret tabular data under various augmentations and perturbations. Our findings indicate that instructions significantly enhance performance, with recent models like Llama3 exhibiting greater robustness over earlier versions. However, data contamination and practical reliability issues persist, especially with WTQ. We highlight the need for improved methodologies, including structure-aware self-attention mechanisms and better handling of domain-specific tabular data, to develop more reliable LLMs for table comprehension.

arxiv情報

著者 Kushal Raj Bhandari,Sixue Xing,Soham Dan,Jianxi Gao
発行日 2024-06-18 15:41:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク