DocGenome: An Open Large-scale Scientific Document Benchmark for Training and Testing Multi-modal Large Language Models

要約

科学文書には研究結果と人類の貴重な知識が記録されており、高品質のデータの膨大なコーパスで構成されています。
したがって、これらの文書から抽出されたマルチモダリティ データを活用し、科学文書指向のタスクを処理する大規模モデルの能力を評価することは有意義です。
有望な進歩にもかかわらず、大規模なモデルは、複数ページの科学文書の抽出や理解タスクでは依然としてパフォーマンスが低く、グラフや方程式などの文書内のデータ形式を処理する能力はまだ十分に研究されていません。
これらの問題に対処するために、カスタム自動ラベル付けパイプラインを使用して、arXiv オープンアクセス コミュニティの 153 分野の 500,000 の科学文書に注釈を付けることで構築された構造化文書ベンチマークである DocGenome を紹介します。
DocGenome には 4 つの主要な特徴があります。 1) 完全性: 13 のレイアウト属性とその LaTeX ソース コードを含む、すべてのモダリティからのデータを構造化する最初のデータセットです。
2) 論理性: 各科学文書内の異なるエンティティ間の 6 つの論理関係を提供します。
3) 多様性: 文書の分類、視覚的な根拠付け、文書レイアウトの検出、文書の変換、オープンエンドの単一ページ QA および複数ページの QA を含む、文書指向のさまざまなタスクをカバーします。
4) 正確性: 専門チームによる厳格な品質管理チェックを受けています。
私たちは、DocGenome の利点を実証するために広範な実験を実施し、ベンチマークで大規模モデルのパフォーマンスを客観的に評価します。

要約(オリジナル)

Scientific documents record research findings and valuable human knowledge, comprising a vast corpus of high-quality data. Leveraging multi-modality data extracted from these documents and assessing large models’ abilities to handle scientific document-oriented tasks is therefore meaningful. Despite promising advancements, large models still perform poorly on multi-page scientific document extraction and understanding tasks, and their capacity to process within-document data formats such as charts and equations remains under-explored. To address these issues, we present DocGenome, a structured document benchmark constructed by annotating 500K scientific documents from 153 disciplines in the arXiv open-access community, using our custom auto-labeling pipeline. DocGenome features four key characteristics: 1) Completeness: It is the first dataset to structure data from all modalities including 13 layout attributes along with their LaTeX source codes. 2) Logicality: It provides 6 logical relationships between different entities within each scientific document. 3) Diversity: It covers various document-oriented tasks, including document classification, visual grounding, document layout detection, document transformation, open-ended single-page QA and multi-page QA. 4) Correctness: It undergoes rigorous quality control checks conducted by a specialized team. We conduct extensive experiments to demonstrate the advantages of DocGenome and objectively evaluate the performance of large models on our benchmark.

arxiv情報

著者 Renqiu Xia,Song Mao,Xiangchao Yan,Hongbin Zhou,Bo Zhang,Haoyang Peng,Jiahao Pi,Daocheng Fu,Wenjie Wu,Hancheng Ye,Shiyang Feng,Bin Wang,Chao Xu,Conghui He,Pinlong Cai,Min Dou,Botian Shi,Sheng Zhou,Yongwei Wang,Bin Wang,Junchi Yan,Fei Wu,Yu Qiao
発行日 2024-06-17 15:13:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク