CFBenchmark: Chinese Financial Assistant Benchmark for Large Language Model

要約

大規模言語モデル (LLM) は、金融分野で大きな可能性を示しています。
したがって、財務タスクにおける LLM のパフォーマンスを評価することが重要になります。
この作業では、中国の財務アシスタント向けの LLM のパフォーマンスを評価する CFBenchmark を紹介します。
CFBenchmark の基本バージョンは、8 つのタスクを含む 3 つの側面 (\emph{i.e.} 認識、分類、生成) から中国の金融テキスト処理の基本能力を評価するように設計されており、50 から 1,800 以上の長さの金融テキストが含まれています。
文字。
私たちは、CFBenchmark-Basic を使用して文献で入手可能ないくつかの LLM で実験を行いました。その実験結果は、一部の LLM は特定のタスクで優れたパフォーマンスを示しますが、全体としては、既存のモデルを使用した金融テキスト処理の基本タスクにはまだ大幅な改善の余地があることを示しています。

将来的には、中国語の財務アシスタントとして言語モデルの広範な機能をより深い次元でさらに探索することを目的として、CFBenchmark の高度なバージョンを探索する予定です。
私たちのコードは https://github.com/TongjiFinLab/CFBenchmark でリリースされています。

要約(オリジナル)

Large language models (LLMs) have demonstrated great potential in the financial domain. Thus, it becomes important to assess the performance of LLMs in the financial tasks. In this work, we introduce CFBenchmark, to evaluate the performance of LLMs for Chinese financial assistant. The basic version of CFBenchmark is designed to evaluate the basic ability in Chinese financial text processing from three aspects~(\emph{i.e.} recognition, classification, and generation) including eight tasks, and includes financial texts ranging in length from 50 to over 1,800 characters. We conduct experiments on several LLMs available in the literature with CFBenchmark-Basic, and the experimental results indicate that while some LLMs show outstanding performance in specific tasks, overall, there is still significant room for improvement in basic tasks of financial text processing with existing models. In the future, we plan to explore the advanced version of CFBenchmark, aiming to further explore the extensive capabilities of language models in more profound dimensions as a financial assistant in Chinese. Our codes are released at https://github.com/TongjiFinLab/CFBenchmark.

arxiv情報

著者 Yang Lei,Jiangtong Li,Ming Jiang,Junjie Hu,Dawei Cheng,Zhijun Ding,Changjun Jiang
発行日 2023-11-10 01:12:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク