要約
Sciverを紹介します。Sciverは、マルチモーダルの科学的コンテキスト内でクレームを検証するための基礎モデルの能力を評価するために特別に設計された最初のベンチマークです。
SCIVERは、1,113の科学論文を超える3,000の専門家と発音の例で構成されており、それぞれがマルチモーダルの科学的主張の検証における共通の推論タイプを表しています。
微調整された評価を有効にするために、各例には、専門家が解決したサポート証拠が含まれています。
O4-MINI、GEMINI-2.5-FLASH、LLAMA-3.2-VISION、QWEN2.5-VLを含む21の最先端のマルチモーダルファンデーションモデルのパフォーマンスを評価します。
私たちの実験は、これらのモデルとSciverの人間の専門家との間に大きなパフォーマンスのギャップを明らかにしています。
検索された生成(RAG)の詳細な分析、および人間の伝導エラー評価を通じて、現在のオープンソースモデルの重大な制限を特定し、マルチモーダル科学文献タスクのモデルの理解と推論を進めるための重要な洞察を提供します。
要約(オリジナル)
We introduce SciVer, the first benchmark specifically designed to evaluate the ability of foundation models to verify claims within a multimodal scientific context. SciVer consists of 3,000 expert-annotated examples over 1,113 scientific papers, covering four subsets, each representing a common reasoning type in multimodal scientific claim verification. To enable fine-grained evaluation, each example includes expert-annotated supporting evidence. We assess the performance of 21 state-of-the-art multimodal foundation models, including o4-mini, Gemini-2.5-Flash, Llama-3.2-Vision, and Qwen2.5-VL. Our experiment reveals a substantial performance gap between these models and human experts on SciVer. Through an in-depth analysis of retrieval-augmented generation (RAG), and human-conducted error evaluations, we identify critical limitations in current open-source models, offering key insights to advance models’ comprehension and reasoning in multimodal scientific literature tasks.
arxiv情報
著者 | Chengye Wang,Yifei Shen,Zexi Kuang,Arman Cohan,Yilun Zhao |
発行日 | 2025-06-18 15:43:26+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google