FAMMA: A Benchmark for Financial Domain Multilingual Multimodal Question Answering

要約

この論文では、\ underline {a} ncial \ underline {m} ultilingual \ underline {m} ultimodal question \ underline {a} nswering(qa)の\下線{f}のオープンソースベンチマークであるFammaを紹介します。
私たちのベンチマークは、高度な財務知識を必要とする複雑な推論質問に答える際に、大規模な言語モデル(LLM)の能力を評価することを目的としています。
ベンチマークには2つのバージョンがあります。FAMMA-Basicは、大学の教科書や試験から抽出された1,945の質問と、人間が注目した答えと理論的根拠で構成されています。
Famma-Liveproは、人間のドメインの専門家によって作成された103の斬新な質問で構成されており、汚染のない評価のために答えと理論的根拠が一般から保持されています。
これらの質問は、金融における8つの主要なサブフィールド(例:企業金融、デリバティブ、ポートフォリオ管理)の高度な知識をカバーしています。
一部は中国語またはフランス語で、その大部分は英語です。
各質問には、チャート、図、表など、テキスト以外のデータがいくつかあります。
私たちの実験は、GPT-O1やDeepSeek-R1などの推論モデルなど、FAMMAがLLMに大きな課題をもたらすことを明らかにしています。
さらに、Famma-Basicデータ上のDeepseek-R1の1,270の推論軌跡をキュレーションし、この推論データを使用して一連のオープンソースQwenモデルを微調整しました。
これらの推論軌跡に関するモデルをトレーニングすることで、Famma-Liveproでのパフォーマンスが大幅に向上することがわかりました。
https://famma-bench.github.io/famma/でリーダーボード、データ、コード、トレーニングモデルをリリースしました。

要約(オリジナル)

In this paper, we introduce FAMMA, an open-source benchmark for \underline{f}in\underline{a}ncial \underline{m}ultilingual \underline{m}ultimodal question \underline{a}nswering (QA). Our benchmark aims to evaluate the abilities of large language models (LLMs) in answering complex reasoning questions that require advanced financial knowledge. The benchmark has two versions: FAMMA-Basic consists of 1,945 questions extracted from university textbooks and exams, along with human-annotated answers and rationales; FAMMA-LivePro consists of 103 novel questions created by human domain experts, with answers and rationales held out from the public for a contamination-free evaluation. These questions cover advanced knowledge of 8 major subfields in finance (e.g., corporate finance, derivatives, and portfolio management). Some are in Chinese or French, while a majority of them are in English. Each question has some non-text data such as charts, diagrams, or tables. Our experiments reveal that FAMMA poses a significant challenge on LLMs, including reasoning models such as GPT-o1 and DeepSeek-R1. Additionally, we curated 1,270 reasoning trajectories of DeepSeek-R1 on the FAMMA-Basic data, and fine-tuned a series of open-source Qwen models using this reasoning data. We found that training a model on these reasoning trajectories can significantly improve its performance on FAMMA-LivePro. We released our leaderboard, data, code, and trained models at https://famma-bench.github.io/famma/.

arxiv情報

著者 Siqiao Xue,Xiaojing Li,Fan Zhou,Qingyang Dai,Zhixuan Chu,Hongyuan Mei
発行日 2025-05-15 02:17:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク