要約
大規模なマルチモーダルモデル(LMMS)の急速な進歩により、科学的問題解決への応用が可能になりましたが、それらの細かい能力は未調査のままです。
この論文では、5つの異なるバージョンで5,735のテストインスタンスでLMMを徹底的に評価するためのマルチモーダル科学的評価ベンチマークであるSciverseを紹介します。
LMMの3つの重要な側面を調査することを目指しています。科学的知識の理解、マルチモーダルコンテンツの解釈、およびチェーンオブテア(COT)推論です。
LMMSが十分な科学的専門知識を持っているかどうかを明らかにするために、最初に各問題を解決に必要なさまざまなレベルの知識、つまり、知識のない、ライト、およびリッチを含む3つのバージョンに変換します。
次に、LMMSがマルチモーダルの科学的コンテンツをどのように解釈するかを探るために、別の2つのバージョン、つまりビジョンが豊富で、そのみを注釈を付け、テキストから図までより多くの質問情報をマークします。
さまざまなバージョンの結果を比較すると、Sciverseは科学的領域におけるLMMの専門知識ストックと視覚的認識スキルを体系的に調べます。
さらに、COTの推論を厳密に評価するために、新しい科学的COT評価戦略を提案し、モデル出力の知識と論理エラーに関する段階的な評価を実施します。
SciverseでのさまざまなLMMの広範な評価は、科学的習熟度の重大な制限を明らかにし、将来の発展に関する新しい洞察を提供します。
プロジェクトページ:https://sciverse-cuhk.github.io
要約(オリジナル)
The rapid advancement of Large Multi-modal Models (LMMs) has enabled their application in scientific problem-solving, yet their fine-grained capabilities remain under-explored. In this paper, we introduce SciVerse, a multi-modal scientific evaluation benchmark to thoroughly assess LMMs across 5,735 test instances in five distinct versions. We aim to investigate three key dimensions of LMMs: scientific knowledge comprehension, multi-modal content interpretation, and Chain-of-Thought (CoT) reasoning. To unveil whether LMMs possess sufficient scientific expertise, we first transform each problem into three versions containing different levels of knowledge required for solving, i.e., Knowledge-free, -lite, and -rich. Then, to explore how LMMs interpret multi-modal scientific content, we annotate another two versions, i.e., Vision-rich and -only, marking more question information from texts to diagrams. Comparing the results of different versions, SciVerse systematically examines the professional knowledge stock and visual perception skills of LMMs in scientific domains. In addition, to rigorously assess CoT reasoning, we propose a new scientific CoT evaluation strategy, conducting a step-wise assessment on knowledge and logical errors in model outputs. Our extensive evaluation of different LMMs on SciVerse reveals critical limitations in their scientific proficiency and provides new insights into future developments. Project page: https://sciverse-cuhk.github.io
arxiv情報
著者 | Ziyu Guo,Ray Zhang,Hao Chen,Jialin Gao,Dongzhi Jiang,Jiaze Wang,Pheng-Ann Heng |
発行日 | 2025-03-13 17:59:32+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google