TAT-LLM: A Specialized Language Model for Discrete Reasoning over Tabular and Textual Data

要約

この研究では、Web 上の非常に一般的なコンテンツ (SEC 申請書など) である表形式データとテキスト データのハイブリッドを使用した質問応答 (QA) に取り組みます。これらのデータでは、離散的な推論機能が必要とされることがよくあります。
最近、GPT-4 のような大規模言語モデル (LLM) は、強力な複数ステップの推論機能を実証しています。
次に、LLM の驚くべきパワーを利用してタスクを解決することを検討します。
私たちは、表形式およびテキスト形式の QA 用のステップワイズ パイプラインを抽象化します。これは、Extractor、Reasoner、Executor を含む 3 つの主要なステップで構成され、最初にパイプラインをインスタンス化し、GPT-4 が既存のすべてのメソッドよりも優れていることを検証する命令を設計します。
ただし、GPT-4 のようなオンライン LLM の利用には、コスト、遅延、データ セキュリティ リスクの点でさまざまな課題があり、そのため、このタスクでは小規模な LLM に特化することにしました。
ステップワイズ パイプラインに従って、既存の専門家による注釈付きデータセットから自動的に生成されたトレーニング データを使用して LLaMA 2 を微調整することにより、TAT-LLM 言語モデルを開発します。
実験結果により、当社の TAT-LLM モデルは、FinQA、TAT-QA、TAT-DQA ベンチマークにおいて、これまでの最高の微調整モデルや GPT-4 などの非常に大規模な LLM を含む、すべてのベースライン モデルよりも優れたパフォーマンスを発揮できることが確認されました。
私たちの研究が、特定のタスク向けに小さな言語モデルを特化する先駆的な例として役立つことを願っています。

要約(オリジナル)

In this work, we address question answering (QA) over a hybrid of tabular and textual data that are very common content on the Web (e.g. SEC filings), where discrete reasoning capabilities are often required. Recently, large language models (LLMs) like GPT-4 have demonstrated strong multi-step reasoning capabilities. We then consider harnessing the amazing power of LLMs to solve our task. We abstract a Step-wise Pipeline for tabular and textual QA, which consists of three key steps, including Extractor, Reasoner and Executor, and initially design an instruction to instantiate the pipeline and validate that GPT-4 outperforms all existing methods. However, utilizing an online LLM like GPT-4 holds various challenges in terms of cost, latency, and data security risk, which motivates us to specialize smaller LLMs in this task. We develop a TAT-LLM language model by fine-tuning LLaMA 2 with the training data generated automatically from existing expert-annotated datasets following the Step-wise Pipeline. The experimental results have verified that our TAT-LLM model can outperform all baseline models, including the previous best fine-tuned models and very large-scale LLMs like GPT-4 on FinQA, TAT-QA and TAT-DQA benchmarks. We hope our work can serve as a pioneering example of specializing smaller language models for specific tasks.

arxiv情報

著者 Fengbin Zhu,Ziyang Liu,Fuli Feng,Chao Wang,Moxin Li,Tat-Seng Chua
発行日 2024-01-24 04:28:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク