First Multi-Dimensional Evaluation of Flowchart Comprehension for Multimodal Large Language Models

要約

マルチモーダル大規模言語モデル (MLLM) テクノロジーの開発により、その一般的な機能はますます強力になっています。
MLLM のさまざまな能力を評価するために、数多くの評価システムが登場しています。
しかし現在、日常生活や仕事において非常に重要なフローチャートに関連するタスクにおける MLLM を評価するための包括的な方法がまだ不足しています。
私たちは、フローチャートに関連するタスクのさまざまな側面にわたって MLLM を評価するための最初の包括的な方法である FlowCE を提案します。
これには、推論、ローカリゼーション認識、情報抽出、論理検証、フローチャートでの要約における MLLM の能力の評価が含まれます。
ただし、GPT4o モデルでも 56.63 のスコアしか達成できないことがわかります。
オープンソース モデルの中で、Phi-3-Vision は 49.97 という最高スコアを獲得しました。
FlowCE が、フローチャートに基づくタスクのマルチモーダル大規模言語モデル (MLLM) に関する将来の研究に貢献できることを期待しています。
このプロジェクトはオープンソース化しています: \url{https://github.com/360AILAB-NLP/FlowCE}

要約(オリジナル)

With the development of multimodal large language models (MLLMs) technology, its general capabilities are increasingly powerful. To evaluate the various abilities of MLLMs, numerous evaluation systems have emerged. But now there is still a lack of a comprehensive method to evaluate MLLMs in the tasks related to flowcharts, which are very important in daily life and work. We propose the first comprehensive method, FlowCE, to assess MLLMs across various dimensions for tasks related to flowcharts. It encompasses evaluating MLLMs’ abilities in Reasoning, Localization Recognition, Information Extraction, Logical Verification, and Summarization on flowcharts. However, we find that even the GPT4o model achieves only a score of 56.63. Among open-source models, Phi-3-Vision obtained the highest score of 49.97. We hope that FlowCE can contribute to future research on multimodal large language models (MLLMs) for tasks based on flowcharts. We are open-sourcing this project: \url{https://github.com/360AILAB-NLP/FlowCE}

arxiv情報

著者 Enming Zhang,Ruobing Yao,Huanyong Liu,Junhui Yu,Jiale Wang
発行日 2024-06-14 14:15:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク