FinTextQA: A Dataset for Long-form Financial Question Answering

要約

財務質問応答 (QA) システムを正確に評価するには、多様な質問の種類とコンテキストを含む包括的なデータセットが必要です。
しかし、現在の財務 QA データセットには範囲の多様性と質問の複雑さが欠けています。
この研究では、金融における長文質問応答 (LFQA) 用の新しいデータセットである FinTextQA を紹介します。
FinTextQA は、金融の教科書や政府機関の Web サイトから抽出および選択された 1,262 個の高品質でソースが特定された QA ペアで構成されています。さらに、エンベッダー、リトリーバー、リランカー、およびジェネレーターで構成される検索拡張生成 (RAG) ベースの LFQA システムを開発しました。

人間によるランキング、自動メトリクス、GPT-4 スコアリングなどの多面的な評価アプローチを採用して、ノイズが増大した条件下でのさまざまな LFQA システム構成のパフォーマンスをベンチマークしました。
結果は次のことを示しています。(1) 比較したすべての発電機の中で、Baichuan2-7B は精度スコアにおいて GPT-3.5-turbo とほぼ競合しています。
(2) 私たちのデータセットで最も効果的なシステム構成には、エンベッダー、リトリーバー、リランカー、ジェネレーターをそれぞれ Ada2、Automated Merged Retrieval、Bge-Reranker-Base、Baichuan2-7B として設定することが含まれていました。
(3) コンテキストの長さが特定のしきい値に達すると、モデルはノイズの影響を受けにくくなります。

要約(オリジナル)

Accurate evaluation of financial question answering (QA) systems necessitates a comprehensive dataset encompassing diverse question types and contexts. However, current financial QA datasets lack scope diversity and question complexity. This work introduces FinTextQA, a novel dataset for long-form question answering (LFQA) in finance. FinTextQA comprises 1,262 high-quality, source-attributed QA pairs extracted and selected from finance textbooks and government agency websites.Moreover, we developed a Retrieval-Augmented Generation (RAG)-based LFQA system, comprising an embedder, retriever, reranker, and generator. A multi-faceted evaluation approach, including human ranking, automatic metrics, and GPT-4 scoring, was employed to benchmark the performance of different LFQA system configurations under heightened noisy conditions. The results indicate that: (1) Among all compared generators, Baichuan2-7B competes closely with GPT-3.5-turbo in accuracy score; (2) The most effective system configuration on our dataset involved setting the embedder, retriever, reranker, and generator as Ada2, Automated Merged Retrieval, Bge-Reranker-Base, and Baichuan2-7B, respectively; (3) models are less susceptible to noise after the length of contexts reaching a specific threshold.

arxiv情報

著者 Jian Chen,Peilin Zhou,Yining Hua,Yingxin Loh,Kehui Chen,Ziyuan Li,Bing Zhu,Junwei Liang
発行日 2024-05-16 10:53:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク