CFinBench: A Comprehensive Chinese Financial Benchmark for Large Language Models

要約

大規模言語モデル (LLM) は、さまざまな NLP タスクで目覚ましいパフォーマンスを達成していますが、金融など、より困難でドメイン固有のタスクにおけるその可能性は十分に検討されていません。
このペーパーでは、中国の文脈でLLMの財務知識を評価するために、細心の注意を払って作成された、これまでで最も包括的な評価ベンチマークであるCFinBenchを紹介します。
実際には、中国の金融実務者のキャリアの軌跡とよりよく一致させるために、次の 4 つの第 1 レベルのカテゴリーから体系的な評価を構築します。 (1) 金融科目: LLM が経済学、統計などの金融科目の必要な基礎知識を暗記できるかどうか
そして監査。
(2) 財務資格: LLM が公認会計士、証券資格、銀行資格など、必要な金融資格を取得できるかどうか。
(3) 財務実務: LLM が税務コンサルタント、ジュニア会計士、証券アナリストなどの実務的な財務業務を遂行できるかどうか。
(4) 金融法:LLM が税法、保険法、経済法などの金融法規制の要件を満たすことができるかどうか。
CFinBench は、43 の第 2 レベル カテゴリにわたる 99,100 の質問で構成され、単一選択、多肢選択、判断の 3 つの質問タイプがあります。
CFinBench では、さまざまなモデル サイズの 50 個の代表的な LLM について広範な実験を実施しています。
結果は、GPT4 と一部の中国向けモデルがベンチマークをリードし、最高の平均精度が 60.16% であることを示しており、CFinBench が提示する課題を浮き彫りにしています。
データセットと評価コードは https://cfinbench.github.io/ で入手できます。

要約(オリジナル)

Large language models (LLMs) have achieved remarkable performance on various NLP tasks, yet their potential in more challenging and domain-specific task, such as finance, has not been fully explored. In this paper, we present CFinBench: a meticulously crafted, the most comprehensive evaluation benchmark to date, for assessing the financial knowledge of LLMs under Chinese context. In practice, to better align with the career trajectory of Chinese financial practitioners, we build a systematic evaluation from 4 first-level categories: (1) Financial Subject: whether LLMs can memorize the necessary basic knowledge of financial subjects, such as economics, statistics and auditing. (2) Financial Qualification: whether LLMs can obtain the needed financial qualified certifications, such as certified public accountant, securities qualification and banking qualification. (3) Financial Practice: whether LLMs can fulfill the practical financial jobs, such as tax consultant, junior accountant and securities analyst. (4) Financial Law: whether LLMs can meet the requirement of financial laws and regulations, such as tax law, insurance law and economic law. CFinBench comprises 99,100 questions spanning 43 second-level categories with 3 question types: single-choice, multiple-choice and judgment. We conduct extensive experiments of 50 representative LLMs with various model size on CFinBench. The results show that GPT4 and some Chinese-oriented models lead the benchmark, with the highest average accuracy being 60.16%, highlighting the challenge presented by CFinBench. The dataset and evaluation code are available at https://cfinbench.github.io/.

arxiv情報

著者 Ying Nie,Binwei Yan,Tianyu Guo,Hao Liu,Haoyu Wang,Wei He,Binfan Zheng,Weihao Wang,Qiang Li,Weijian Sun,Yunhe Wang,Dacheng Tao
発行日 2024-07-02 14:34:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク