SciMMIR: Benchmarking Scientific Multi-modal Information Retrieval

要約

マルチモーダル情報検索 (MMIR) は急速に進化している分野であり、高度な表現学習とクロスモダリティ調整研究を通じて、特に画像とテキストのペアリングにおいて大きな進歩が見られます。
しかし、科学分野における画像とテキストのペアにおける MMIR のパフォーマンスを評価するための現在のベンチマークには、顕著なギャップがあり、学術用語で記述されたチャートや表の画像は通常重要な役割を果たしていません。
このギャップを埋めるために、私たちはオープンアクセスの論文コレクションを活用して科学分野に関連するデータを抽出することにより、専門的な科学 MMIR (SciMMIR) ベンチマークを開発します。
このベンチマークは、科学文書の詳細なキャプションが付いた図や表から抽出された、細心の注意を払って厳選された 530K の画像とテキストのペアで構成されています。
さらに、ベースラインのより包括的な評価を容易にするために、2 レベルのサブセットとサブカテゴリの階層注釈を使用して画像とテキストのペアに注釈を付けます。
CLIP や BLIP などの著名なマルチモーダル画像キャプションおよび視覚言語モデルについて、ゼロショット評価と微調整評価を実施しました。
私たちの分析は、事前トレーニングと微調整設定の影響、ビジュアルおよびテキストエンコーダーの影響など、科学分野における MMIR に関する重要な洞察を提供します。
すべてのデータとチェックポイントは、https://github.com/Wusiwei0410/SciMMIR で公開されています。

要約(オリジナル)

Multi-modal information retrieval (MMIR) is a rapidly evolving field, where significant progress, particularly in image-text pairing, has been made through advanced representation learning and cross-modality alignment research. However, current benchmarks for evaluating MMIR performance in image-text pairing within the scientific domain show a notable gap, where chart and table images described in scholarly language usually do not play a significant role. To bridge this gap, we develop a specialised scientific MMIR (SciMMIR) benchmark by leveraging open-access paper collections to extract data relevant to the scientific domain. This benchmark comprises 530K meticulously curated image-text pairs, extracted from figures and tables with detailed captions in scientific documents. We further annotate the image-text pairs with two-level subset-subcategory hierarchy annotations to facilitate a more comprehensive evaluation of the baselines. We conducted zero-shot and fine-tuning evaluations on prominent multi-modal image-captioning and visual language models, such as CLIP and BLIP. Our analysis offers critical insights for MMIR in the scientific domain, including the impact of pre-training and fine-tuning settings and the influence of the visual and textual encoders. All our data and checkpoints are publicly available at https://github.com/Wusiwei0410/SciMMIR.

arxiv情報

著者 Siwei Wu,Yizhi Li,Kang Zhu,Ge Zhang,Yiming Liang,Kaijing Ma,Chenghao Xiao,Haoran Zhang,Bohao Yang,Wenhu Chen,Wenhao Huang,Noura Al Moubayed,Jie Fu,Chenghua Lin
発行日 2024-01-24 14:23:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV, cs.IR, cs.MM パーマリンク