要約
マルチモーダル大手言語モデル(MLLM)は、近年急速な発展を経験しています。
ただし、財務ドメインでは、効果的で特殊なマルチモーダル評価データセットが顕著に不足しています。
FinanceドメインでのMLLMの開発を進めるために、Finmmeを導入し、18の金融ドメインと6つの資産クラスにわたって11,000を超える高品質の金融研究サンプルを含み、10の主要なチャートタイプと21のサブタイプを備えています。
20のアノテーターと慎重に設計された検証メカニズムを通じてデータ品質を確保します。
さらに、幻覚のペナルティと多次元能力評価を組み込んだ評価システムであるFinScoreを開発して、公平な評価を提供します。
広範な実験結果は、GPT-4oのような最先端のモデルでさえ、Finmmeで不十分なパフォーマンスを示すことを示しており、その挑戦的な性質を強調しています。
ベンチマークは、異なるプロンプトの下で1%未満のままで予測の変動を伴う高い堅牢性を示し、既存のデータセットと比較して優れた信頼性を示しています。
データセットと評価プロトコルは、https://huggingface.co/datasets/luojunyu/finmmeおよびhttps://github.com/luo-junyu/finmmeで入手できます。
要約(オリジナル)
Multimodal Large Language Models (MLLMs) have experienced rapid development in recent years. However, in the financial domain, there is a notable lack of effective and specialized multimodal evaluation datasets. To advance the development of MLLMs in the finance domain, we introduce FinMME, encompassing more than 11,000 high-quality financial research samples across 18 financial domains and 6 asset classes, featuring 10 major chart types and 21 subtypes. We ensure data quality through 20 annotators and carefully designed validation mechanisms. Additionally, we develop FinScore, an evaluation system incorporating hallucination penalties and multi-dimensional capability assessment to provide an unbiased evaluation. Extensive experimental results demonstrate that even state-of-the-art models like GPT-4o exhibit unsatisfactory performance on FinMME, highlighting its challenging nature. The benchmark exhibits high robustness with prediction variations under different prompts remaining below 1%, demonstrating superior reliability compared to existing datasets. Our dataset and evaluation protocol are available at https://huggingface.co/datasets/luojunyu/FinMME and https://github.com/luo-junyu/FinMME.
arxiv情報
著者 | Junyu Luo,Zhizhuo Kou,Liming Yang,Xiao Luo,Jinsheng Huang,Zhiping Xiao,Jingshu Peng,Chengzhong Liu,Jiaming Ji,Xuanzhe Liu,Sirui Han,Ming Zhang,Yike Guo |
発行日 | 2025-05-30 15:36:19+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google