MTFinEval:A Multi-domain Chinese Financial Benchmark with Eurypalynous questions

要約

経済に特化した LLMS がますます登場するにつれ、それらが生産に安全に投資できるかどうかをどのように測定するかが問題になります。
これまでの研究は主に、特定のアプリケーション シナリオ内での LLM のパフォーマンスの評価に焦点を当てていました。
ただし、これらのベンチマークは理論レベルと一般化能力を反映できず、後方データセットは現実のシナリオの問題にはますます不適切になります。
本稿では、LLM が常に判断材料として使用できる経済学の基礎知識に焦点を当て、新しいベンチマーク MTFinEval を作成しました。
可能な限り理論的な知識のみを調べるために、MTFinEval は大学の教科書の基礎的な質問と、経済学および経営学専攻の試験問題に基づいて構築されています。
LLM の全体的なパフォーマンスは経済学の 1 つのサブ分野だけに依存しないことを認識しており、MTFinEval は経済学の 6 つの主要分野から洗練された 360 の質問で構成され、能力をより包括的に反映しています。
実験結果は、MTFinEval ではすべての LLM のパフォーマンスが低いことを示しており、基本的な知識に基づいて構築されたベンチマークが非常に成功していることを証明しています。
私たちの研究は、特定のユースケースに適切な LLM を選択するためのガイダンスを提供するだけでなく、LLM の厳密な信頼性を基礎から高めることも提案しています。

要約(オリジナル)

With the emergence of more and more economy-specific LLMS, how to measure whether they can be safely invested in production becomes a problem. Previous research has primarily focused on evaluating the performance of LLMs within specific application scenarios. However, these benchmarks cannot reflect the theoretical level and generalization ability, and the backward datasets are increasingly unsuitable for problems in real scenarios. In this paper, we have compiled a new benchmark, MTFinEval, focusing on the LLMs’ basic knowledge of economics, which can always be used as a basis for judgment. To examine only theoretical knowledge as much as possible, MTFinEval is build with foundational questions from university textbooks,and exam papers in economics and management major. Aware of the overall performance of LLMs do not depend solely on one subdiscipline of economics, MTFinEval comprise 360 questions refined from six major disciplines of economics, and reflect capabilities more comprehensively. Experiment result shows all LLMs perform poorly on MTFinEval, which proves that our benchmark built on basic knowledge is very successful. Our research not only offers guidance for selecting the appropriate LLM for specific use cases, but also put forward increase the rigor reliability of LLMs from the basics.

arxiv情報

著者 Xinyu Liu,Ke Jin
発行日 2024-08-20 15:04:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI パーマリンク