UCFE: A User-Centric Financial Expertise Benchmark for Large Language Models

要約

このペーパーでは、UCFE:ユーザー中心の金融専門知識ベンチマークを紹介します。これは、複雑な現実世界の金融タスクを処理する大規模な言語モデル(LLMS)の能力を評価するために設計された革新的なフレームワークです。
UCFEベンチマークは、人間の専門家の評価と動的でタスク固有の相互作用を組み合わせて、進化する財務シナリオの複雑さをシミュレートするハイブリッドアプローチを採用しています。
まず、804人の参加者を含むユーザー調査を実施し、財務タスクに関するフィードバックを収集しました。
第二に、このフィードバックに基づいて、幅広いユーザーの意図とインタラクションを含むデータセットを作成しました。
このデータセットは、LLM-As-Judgeの方法論を使用して、11のLLMSサービスをベンチマークするための基盤として機能します。
私たちの結果は、ベンチマークスコアと人間の好みとの間に大きな整合性を示しており、ピアソン相関係数は0.78で、UCFEデータセットの有効性と評価アプローチを確認しています。
UCFEベンチマークは、金融ドメインにおけるLLMの可能性を明らかにするだけでなく、パフォーマンスとユーザーの満足度を評価するための堅牢なフレームワークも提供します。

要約(オリジナル)

This paper introduces the UCFE: User-Centric Financial Expertise benchmark, an innovative framework designed to evaluate the ability of large language models (LLMs) to handle complex real-world financial tasks. UCFE benchmark adopts a hybrid approach that combines human expert evaluations with dynamic, task-specific interactions to simulate the complexities of evolving financial scenarios. Firstly, we conducted a user study involving 804 participants, collecting their feedback on financial tasks. Secondly, based on this feedback, we created our dataset that encompasses a wide range of user intents and interactions. This dataset serves as the foundation for benchmarking 11 LLMs services using the LLM-as-Judge methodology. Our results show a significant alignment between benchmark scores and human preferences, with a Pearson correlation coefficient of 0.78, confirming the effectiveness of the UCFE dataset and our evaluation approach. UCFE benchmark not only reveals the potential of LLMs in the financial domain but also provides a robust framework for assessing their performance and user satisfaction.

arxiv情報

著者 Yuzhe Yang,Yifei Zhang,Yan Hu,Yilin Guo,Ruoli Gan,Yueru He,Mingcong Lei,Xiao Zhang,Haining Wang,Qianqian Xie,Jimin Huang,Honghai Yu,Benyou Wang
発行日 2025-02-07 08:37:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CE, cs.CL, q-fin.CP パーマリンク