MicroVQA: A Multimodal Reasoning Benchmark for Microscopy-Based Scientific Research

要約

科学研究には、マルチモーダルデータよりも洗練された推論が必要です。これは、生物学で特に一般的な課題です。
AIアシスト研究のマルチモーダル大手言語モデル(MLLM)の最近の進歩にもかかわらず、既存のマルチモーダル推論ベンチマークは大学レベルの難易度までのみ対象とし、研究レベルのベンチマークは科学的発見に必要な複雑なマルチモーダル推論に達していない低レベルの認識を強調します。
このギャップを埋めるために、研究ワークフローに不可欠な3つの推論能力を評価するために設計された視覚的な質問応答(VQA)ベンチマークであるMicroVQAを紹介します:専門家の画像理解、仮説生成、および実験提案。
MicroVQAは、多様な顕微鏡モダリティの生物学の専門家によってキュレーションされた1,042の多肢選択質問(MCQ)で構成されており、VQAサンプルが実際の科学的実践を表すことを保証します。
ベンチマークの構築において、標準のMCQ生成方法は言語ショートカットを誘発し、新しい2段パイプラインを動機付けていることがわかります。
次に、エージェントベースの「RefineBot」がそれらを更新してショートカットを削除します。
最先端のMLLMのベンチマークは、53 \%のピーク性能を明らかにしています。
LLMが小さいモデルは、わずかにパフォーマンスの低いTOPモデルのみであり、言語ベースの推論はマルチモーダル推論よりも困難ではないことを示唆しています。
科学記事でチューニングすると、パフォーマンスが向上します。
考えられた連鎖応答の専門家分析は、知覚エラーが最も頻繁であり、その後知識エラーと過剰な一般化エラーが続くことを示しています。
これらの洞察は、マルチモーダルの科学的推論の課題を強調しており、MicroVQAがAI駆動型の生物医学研究を進める貴重なリソースであることを示しています。
MicroVQAは、https://huggingface.co/datasets/jmhb/microvqaで、プロジェクトページでhttps://jmhb0.github.io/microvqaで入手できます。

要約(オリジナル)

Scientific research demands sophisticated reasoning over multimodal data, a challenge especially prevalent in biology. Despite recent advances in multimodal large language models (MLLMs) for AI-assisted research, existing multimodal reasoning benchmarks only target up to college-level difficulty, while research-level benchmarks emphasize lower-level perception, falling short of the complex multimodal reasoning needed for scientific discovery. To bridge this gap, we introduce MicroVQA, a visual-question answering (VQA) benchmark designed to assess three reasoning capabilities vital in research workflows: expert image understanding, hypothesis generation, and experiment proposal. MicroVQA consists of 1,042 multiple-choice questions (MCQs) curated by biology experts across diverse microscopy modalities, ensuring VQA samples represent real scientific practice. In constructing the benchmark, we find that standard MCQ generation methods induce language shortcuts, motivating a new two-stage pipeline: an optimized LLM prompt structures question-answer pairs into MCQs; then, an agent-based `RefineBot’ updates them to remove shortcuts. Benchmarking on state-of-the-art MLLMs reveal a peak performance of 53\%; models with smaller LLMs only slightly underperform top models, suggesting that language-based reasoning is less challenging than multimodal reasoning; and tuning with scientific articles enhances performance. Expert analysis of chain-of-thought responses shows that perception errors are the most frequent, followed by knowledge errors and then overgeneralization errors. These insights highlight the challenges in multimodal scientific reasoning, showing MicroVQA is a valuable resource advancing AI-driven biomedical research. MicroVQA is available at https://huggingface.co/datasets/jmhb/microvqa, and project page at https://jmhb0.github.io/microvqa.

arxiv情報

著者 James Burgess,Jeffrey J Nirschl,Laura Bravo-Sánchez,Alejandro Lozano,Sanket Rajan Gupte,Jesus G. Galaz-Montoya,Yuhui Zhang,Yuchang Su,Disha Bhowmik,Zachary Coman,Sarina M. Hasan,Alexandra Johannesson,William D. Leineweber,Malvika G Nair,Ridhi Yarlagadda,Connor Zuraski,Wah Chiu,Sarah Cohen,Jan N. Hansen,Manuel D Leonetti,Chad Liu,Emma Lundberg,Serena Yeung-Levy
発行日 2025-03-17 17:33:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG, q-bio.CB パーマリンク