SciFIBench: Benchmarking Large Multimodal Models for Scientific Figure Interpretation

要約

大規模マルチモーダル モデル (LMM) は、多くのタスクや分野にわたって柔軟で一般化できることが証明されています。
それらは科学研究を助ける強力な潜在力を持っていますが、この分野におけるそれらの能力は十分に特徴付けられていません。
科学研究の重要な側面は、複雑な情報の豊富で圧縮された情報源として機能する図を理解し解釈する能力です。
この作業では、科学的数値解釈ベンチマークである SciFIBench を紹介します。
私たちの主なベンチマークは、12 カテゴリにわたる 2 つのタスクに分割された多肢選択問題の 1,000 問のゴールド セットで構成されています。
質問は、CS arXiv の論文の図とキャプションから精選され、敵対的フィルタリングを使用してハード ネガを見つけ、品質管理のための人による検証が行われます。
SciFIBench で 26 個の LMM を評価しましたが、これは難しいベンチマークであることがわかりました。
最後に、ベンチマークからの拡張質問セットに対する LMM の整合性と推論の忠実性を調査します。
この分野の進歩を促進するために、私たちは SciFIBench をリリースします。

要約(オリジナル)

Large multimodal models (LMMs) have proven flexible and generalisable across many tasks and fields. Although they have strong potential to aid scientific research, their capabilities in this domain are not well characterised. A key aspect of scientific research is the ability to understand and interpret figures, which serve as a rich, compressed source of complex information. In this work, we present SciFIBench, a scientific figure interpretation benchmark. Our main benchmark consists of a 1000-question gold set of multiple-choice questions split between two tasks across 12 categories. The questions are curated from CS arXiv paper figures and captions, using adversarial filtering to find hard negatives and human verification for quality control. We evaluate 26 LMMs on SciFIBench, finding it to be a challenging benchmark. Finally, we investigate the alignment and reasoning faithfulness of the LMMs on augmented question sets from our benchmark. We release SciFIBench to encourage progress in this domain.

arxiv情報

著者 Jonathan Roberts,Kai Han,Neil Houlsby,Samuel Albanie
発行日 2024-05-14 17:54:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク