MMLongBench-Doc: Benchmarking Long-context Document Understanding with Visualizations

要約

豊富なレイアウトとマルチモーダル コンポーネントを含むドキュメントを理解することは、長年にわたる実践的な課題です。
最近のラージ ビジョン言語モデル (LVLM) は、さまざまなタスク、特に単一ページの文書理解 (DU) において目覚ましい進歩を遂げています。
しかし、ロングコンテキスト DU における彼らの能力は未解決の問題のままです。
この研究では、専門家による注釈付きの 1,062 の質問で構成される、ロングコンテキストのマルチモーダル ベンチマークである MMLongBench-Doc を紹介します。
以前のデータセットとは異なり、平均 49.4 ページと 20,971 のテキスト トークンを含む 130 の長い PDF 形式のドキュメントに基づいて構築されています。
総合的な評価に向けて、これらの質問に対する答えは、(1) さまざまなソース (テキスト、画像、グラフ、表、レイアウト構造) および (2) さまざまな場所 (ページ番号など) からの証拠に依存します。
さらに、質問の 33.2% は、複数ページにわたる証拠を必要とするページ横断質問です。
質問の 22.8% は、潜在的な幻覚を検出するために回答できないように設計されています。
14 個の LVLM での実験により、ロングコンテキスト DU が現在のモデルに大きな課題をもたらすことが実証されました。
特に、最もパフォーマンスの高いモデルである GPT-4o の F1 スコアは 42.7% にとどまるのに対し、2 番目に優れたモデルである GPT-4V のスコアは 31.4% です。
さらに、12 の LVLM (GPT-4o と GPT-4V を除くすべて) は、非可逆解析された OCR ドキュメントを供給される対応する LLM よりもパフォーマンスが劣ります。
これらの結果は、より高性能なロングコンテキスト LVLM に向けた将来の研究の必要性を検証します。
プロジェクトページ: https://mayubo2333.github.io/MMLongBench-Doc

要約(オリジナル)

Understanding documents with rich layouts and multi-modal components is a long-standing and practical task. Recent Large Vision-Language Models (LVLMs) have made remarkable strides in various tasks, particularly in single-page document understanding (DU). However, their abilities on long-context DU remain an open problem. This work presents MMLongBench-Doc, a long-context, multi-modal benchmark comprising 1,062 expert-annotated questions. Distinct from previous datasets, it is constructed upon 130 lengthy PDF-formatted documents with an average of 49.4 pages and 20,971 textual tokens. Towards comprehensive evaluation, answers to these questions rely on pieces of evidence from (1) different sources (text, image, chart, table, and layout structure) and (2) various locations (i.e. page number). Moreover, 33.2% of the questions are cross-page questions requiring evidence across multiple pages. 22.8% of the questions are designed to be unanswerable for detecting potential hallucinations. Experiments on 14 LVLMs demonstrate that long-context DU greatly challenges current models. Notably, the best-performing model, GPT-4o, achieves an F1 score of only 42.7%, while the second-best, GPT-4V, scores 31.4%. Furthermore, 12 LVLMs (all except GPT-4o and GPT-4V) even present worse performance than their LLM counterparts which are fed with lossy-parsed OCR documents. These results validate the necessity of future research toward more capable long-context LVLMs. Project Page: https://mayubo2333.github.io/MMLongBench-Doc

arxiv情報

著者 Yubo Ma,Yuhang Zang,Liangyu Chen,Meiqi Chen,Yizhu Jiao,Xinze Li,Xinyuan Lu,Ziyu Liu,Yan Ma,Xiaoyi Dong,Pan Zhang,Liangming Pan,Yu-Gang Jiang,Jiaqi Wang,Yixin Cao,Aixin Sun
発行日 2024-07-10 15:31:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV パーマリンク