SEC-QA: A Systematic Evaluation Corpus for Financial QA

要約

財務領域では、日常業務に不可欠な大量の長い文書を頻繁に処理します。
財務データ分析の自動化に多大な努力が払われています。
ただし、金融ドメインに限定されない永続的な課題は、モデル評価のための実世界のタスクを正確に反映するデータセットが不足していることです。
既存のデータセットは、サイズ、コンテキスト、実際のアプリケーションとの関連性によって制約されることがよくあります。
さらに、LLM は現在、何兆ものテキスト トークンを使用してトレーニングされており、公平な評価を目的としたトレーニング中にモデルが遭遇したことのない新規データやドキュメントへのアクセスが制限されています。
私たちは、2 つの主要な機能を備えた継続的なデータセット生成フレームワークである SEC-QA を提案します。1) 複数の長いコンテキストの財務文書にまたがる質問と回答 (QA) のペアを半自動生成し、現実世界の金融シナリオをより適切に表現します。
2) LLM によってまだ取り込まれていない最新のパブリック ドキュメント コレクションを使用して、データセットを継続的に更新する機能。
私たちの実験では、現在の検索拡張生成手法では、これらの困難な複数ドキュメントの質問に体系的に答えることができないことが示されています。
これに応えて、複雑な情報検索と定量的推論パイプラインを実行する能力を向上させる思考プログラムに基づく QA システムを導入し、それによって QA の精度を向上させます。

要約(オリジナル)

The financial domain frequently deals with large numbers of long documents that are essential for daily operations. Significant effort is put towards automating financial data analysis. However, a persistent challenge, not limited to the finance domain, is the scarcity of datasets that accurately reflect real-world tasks for model evaluation. Existing datasets are often constrained by size, context, or relevance to practical applications. Moreover, LLMs are currently trained on trillions of tokens of text, limiting access to novel data or documents that models have not encountered during training for unbiased evaluation. We propose SEC-QA, a continuous dataset generation framework with two key features: 1) the semi-automatic generation of Question-Answer (QA) pairs spanning multiple long context financial documents, which better represent real-world financial scenarios; 2) the ability to continually refresh the dataset using the most recent public document collections, not yet ingested by LLMs. Our experiments show that current retrieval augmented generation methods systematically fail to answer these challenging multi-document questions. In response, we introduce a QA system based on program-of-thought that improves the ability to perform complex information retrieval and quantitative reasoning pipelines, thereby increasing QA accuracy.

arxiv情報

著者 Viet Dac Lai,Michael Krumdick,Charles Lovering,Varshini Reddy,Craig Schmidt,Chris Tanner
発行日 2024-06-20 15:12:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク