CABINET: Content Relevance based Noise Reduction for Table Question Answering

要約

大規模言語モデル (LLM) のテーブル理解機能は、テーブルに対する質問応答 (QA) のタスクを通じて広範囲に研究されてきました。
通常、特定の質問に対する答えを導き出すのに関連するのは、表全体のほんの一部だけです。
無関係な部分はノイズとして機能し、気が散る情報となり、LLM のノイズに対する脆弱性により最適なパフォーマンスが得られません。
これを軽減するために、私たちは CABINET (Content RelevAnce-Based NoIse ReductioN for TableE QuesTion-Answering) を提案します。これは、無関係な情報を抑制することで、LLM が関連する表形式のデータに集中できるようにするフレームワークです。
CABINET は、QA LLM と区別してトレーニングされた教師なし関連性スコアラー (URS) で構成されます。URS は、質問応答 LLM (QA LLM) にフィードする前に、入力された質問との関連性に基づいてテーブルの内容を重み付けします。
関連性スコアラーをさらに支援するために、CABINET は質問に関連する行と列の基準を記述する解析ステートメントを生成し、対応する表のセルの内容を強調表示する弱い監視モジュールを採用しています。
CABINET は、さまざまな表形式の LLM ベースラインや GPT3 ベースのインコンテキスト学習メソッドを大幅に上回り、ノイズに対してより堅牢であり、さまざまなサイズのテーブルで優れたパフォーマンスを維持し、WikiTQ、FeTaQA、および WikiSQL データセットで新しい SoTA パフォーマンスを確立します。
コードとデータセットは https://github.com/Sohanpatnaik106/CABINET_QA でリリースされています。

要約(オリジナル)

Table understanding capability of Large Language Models (LLMs) has been extensively studied through the task of question-answering (QA) over tables. Typically, only a small part of the whole table is relevant to derive the answer for a given question. The irrelevant parts act as noise and are distracting information, resulting in sub-optimal performance due to the vulnerability of LLMs to noise. To mitigate this, we propose CABINET (Content RelevAnce-Based NoIse ReductioN for TablE QuesTion-Answering) – a framework to enable LLMs to focus on relevant tabular data by suppressing extraneous information. CABINET comprises an Unsupervised Relevance Scorer (URS), trained differentially with the QA LLM, that weighs the table content based on its relevance to the input question before feeding it to the question-answering LLM (QA LLM). To further aid the relevance scorer, CABINET employs a weakly supervised module that generates a parsing statement describing the criteria of rows and columns relevant to the question and highlights the content of corresponding table cells. CABINET significantly outperforms various tabular LLM baselines, as well as GPT3-based in-context learning methods, is more robust to noise, maintains outperformance on tables of varying sizes, and establishes new SoTA performance on WikiTQ, FeTaQA, and WikiSQL datasets. We release our code and datasets at https://github.com/Sohanpatnaik106/CABINET_QA.

arxiv情報

著者 Sohan Patnaik,Heril Changwal,Milan Aggarwal,Sumit Bhatia,Yaman Kumar,Balaji Krishnamurthy
発行日 2024-02-13 09:11:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク