要約
近年、一般的なドメインのマルチモーダル ベンチマークにより、一般的なタスクに関するマルチモーダル モデルの迅速な開発が進められています。
ただし、金融分野には特有の特徴があります。
ユニークなグラフィック画像 (ローソク足チャート、テクニカル指標チャートなど) を特徴とし、豊富な専門的な金融知識 (先物、取引高など) を備えています。
したがって、一般的な分野のベンチマークでは、金融分野のマルチモーダル モデルのパフォーマンスを測定できないことが多く、大規模な金融モデルの迅速な開発を効果的に導くことができません。
大規模な金融マルチモーダル モデルの開発を促進するために、バイリンガルのオープンエンドで実用的な使用指向の Visual Question Answering (VQA) ベンチマークである MME-Finance を提案します。
当社のベンチマークの特徴は財務と専門知識です。これには、ユーザーの実際の使用ニーズ (コンピューターのスクリーンショットやモバイル写真など) を反映したチャートの作成、金融領域の問い合わせの好みに応じた質問の作成、および専門家による質問に 10 の注釈が付けられます。
+ 金融業界での長年の経験。
さらに、マルチモーダル評価プロセスに視覚情報を初めて導入した、カスタム設計の財務評価システムを開発しました。
19 の主流 MLLM の広範な実験評価が行われ、知覚、推論、認知能力がテストされます。
結果は、一般的なベンチマークで良好なパフォーマンスを発揮するモデルが、MME-Finance では良好なパフォーマンスを発揮できないことを示しています。
たとえば、最もパフォーマンスの高いオープンソース モデルとクローズドソース モデルでは、それぞれ 65.69 (Qwen2VL-72B) と 63.18 (GPT-4o) が得られます。
ローソク足チャートやテクニカル指標チャートなど、金融に最も関連するカテゴリのパフォーマンスは特に悪いです。
さらに、中国語のコンテキストの下で MLLM のパフォーマンスを比較するのに役立つ中国語バージョンを提案します。
要約(オリジナル)
In recent years, multimodal benchmarks for general domains have guided the rapid development of multimodal models on general tasks. However, the financial field has its peculiarities. It features unique graphical images (e.g., candlestick charts, technical indicator charts) and possesses a wealth of specialized financial knowledge (e.g., futures, turnover rate). Therefore, benchmarks from general fields often fail to measure the performance of multimodal models in the financial domain, and thus cannot effectively guide the rapid development of large financial models. To promote the development of large financial multimodal models, we propose MME-Finance, an bilingual open-ended and practical usage-oriented Visual Question Answering (VQA) benchmark. The characteristics of our benchmark are finance and expertise, which include constructing charts that reflect the actual usage needs of users (e.g., computer screenshots and mobile photography), creating questions according to the preferences in financial domain inquiries, and annotating questions by experts with 10+ years of experience in the financial industry. Additionally, we have developed a custom-designed financial evaluation system in which visual information is first introduced in the multi-modal evaluation process. Extensive experimental evaluations of 19 mainstream MLLMs are conducted to test their perception, reasoning, and cognition capabilities. The results indicate that models performing well on general benchmarks cannot do well on MME-Finance; for instance, the top-performing open-source and closed-source models obtain 65.69 (Qwen2VL-72B) and 63.18 (GPT-4o), respectively. Their performance is particularly poor in categories most relevant to finance, such as candlestick charts and technical indicator charts. In addition, we propose a Chinese version, which helps compare performance of MLLMs under a Chinese context.
arxiv情報
著者 | Ziliang Gan,Yu Lu,Dong Zhang,Haohan Li,Che Liu,Jian Liu,Ji Liu,Haipang Wu,Chaoyou Fu,Zenglin Xu,Rongjunchen Zhang,Yong Dai |
発行日 | 2024-11-05 18:59:51+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google