Hybrid Graphs for Table-and-Text based Question Answering using LLMs

要約

構造化された(表)と非構造化(生のテキスト)データソースの両方にわたって推論と集約が必要な質問に答えると、重要な課題があります。
現在の方法は、微調整された高品質の人間がキュレーションされたデータに依存しており、取得が困難です。
大規模な言語モデル(LLMS)の最近の進歩により、ゼロショット設定でのシングルソーステキストデータに対するマルチホップ質問応答(QA)の有望な結果が示されていますが、マルチソースのテーブルテキストQAの探索は限られています。
この論文では、微調整せずにLLMを活用するテーブルテキストQAの新しいハイブリッドグラフベースのアプローチを紹介します。
私たちの方法は、テキストおよび表形式のデータから統一されたハイブリッドグラフを構築し、入力質問に基づいて剪定情報を構築して、LLMに関連するコンテキストを簡潔に提供します。
GPT-3.5、GPT-4、およびLLAMA-3を含む最先端のLLMを使用して、挑戦的なハイブリッドQAおよびOTT-QAデータセットに関するアプローチを評価します。
私たちの方法は、両方のデータセットで最高のゼロショットパフォーマンスを達成し、Hybrid-QAで最大10%、OTT-QAで5.4%を正確に改善します。
さらに、当社のアプローチは、元のコンテキストと比較して、トークンの使用を最大53%削減します。

要約(オリジナル)

Answering questions that require reasoning and aggregation across both structured (tables) and unstructured (raw text) data sources presents significant challenges. Current methods rely on fine-tuning and high-quality, human-curated data, which is difficult to obtain. Recent advances in Large Language Models (LLMs) have shown promising results for multi-hop question answering (QA) over single-source text data in a zero-shot setting, yet exploration into multi-source Table-Text QA remains limited. In this paper, we present a novel Hybrid Graph-based approach for Table-Text QA that leverages LLMs without fine-tuning. Our method constructs a unified Hybrid Graph from textual and tabular data, pruning information based on the input question to provide the LLM with relevant context concisely. We evaluate our approach on the challenging Hybrid-QA and OTT-QA datasets using state-of-the-art LLMs, including GPT-3.5, GPT-4, and LLaMA-3. Our method achieves the best zero-shot performance on both datasets, improving Exact Match scores by up to 10% on Hybrid-QA and 5.4% on OTT-QA. Moreover, our approach reduces token usage by up to 53% compared to the original context.

arxiv情報

著者 Ankush Agarwal,Ganesh S,Chaitanya Devaguptapu
発行日 2025-01-29 16:58:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク