MonkeyOCR: Document Parsing with a Structure-Recognition-Relation Triplet Paradigm

要約

構造認識関連(SRR)トリプレットパラダイムを活用することにより、最新のアートを進めるドキュメント解析のためのビジョン言語モデルであるMonkeyocrを紹介します。
この設計は、そうでなければ複雑なマルチツールパイプライン(Mineruのモジュラーアプローチのように)となるものを簡素化し、巨大なエンドツーエンドモデル(QWEN-VLなどの大規模なマルチモーダルLMSなど)でフルページを処理する効率を回避します。
SRRでは、ドキュメントの解析は3つの基本的な質問に抽象化されています – 「どこにありますか?」
(構造)、「それは何ですか?」
(認識)、そして「それはどのように整理されていますか?」
(関係) – レイアウト分析、コンテンツ識別、および論理順序に対応します。
この焦点を絞った分解は、精度と速度のバランスを取ります。精度を犠牲にすることなく、効率的でスケーラブルな処理を可能にします。
このアプローチを訓練および評価するために、Monkeydoc(これまでで最も包括的なドキュメント解析データセット)を紹介します。390万個のインスタンスは、中国語と英語の両方で10個以上のドキュメントタイプにまたがっています。
実験は、MonkeyocrがMineruを平均5.1%上回ることを示しており、特にフォーミュラ(+15.0%)や表(+8.6%)などの挑戦的なコンテンツを顕著に改善します。
驚くべきことに、私たちの3Bパラメーターモデルは、QWEN2.5-VL(72B)やGemini 2.5 Proを含むはるかに大きくてトップパフォーマンスのモデルを上回り、英語のドキュメント解析タスクで最先端の平均パフォーマンスを達成しています。
さらに、Monkeyocrはマルチページのドキュメントを大幅に高速に処理します(Mineruで0.65、QWEN2.5-VL-7Bで0.12と比較して0.84ページ)。
3Bモデルは、単一のNVIDIA 3090 GPUで推論のために効率的に展開できます。
コードとモデルはhttps://github.com/yuliang-liu/monkeyocrでリリースされます。

要約(オリジナル)

We introduce MonkeyOCR, a vision-language model for document parsing that advances the state of the art by leveraging a Structure-Recognition-Relation (SRR) triplet paradigm. This design simplifies what would otherwise be a complex multi-tool pipeline (as in MinerU’s modular approach) and avoids the inefficiencies of processing full pages with giant end-to-end models (e.g., large multimodal LLMs like Qwen-VL). In SRR, document parsing is abstracted into three fundamental questions – ‘Where is it?’ (structure), ‘What is it?’ (recognition), and ‘How is it organized?’ (relation) – corresponding to layout analysis, content identification, and logical ordering. This focused decomposition balances accuracy and speed: it enables efficient, scalable processing without sacrificing precision. To train and evaluate this approach, we introduce the MonkeyDoc (the most comprehensive document parsing dataset to date), with 3.9 million instances spanning over ten document types in both Chinese and English. Experiments show that MonkeyOCR outperforms MinerU by an average of 5.1%, with particularly notable improvements on challenging content such as formulas (+15.0%) and tables (+8.6%). Remarkably, our 3B-parameter model surpasses much larger and top-performing models, including Qwen2.5-VL (72B) and Gemini 2.5 Pro, achieving state-of-the-art average performance on English document parsing tasks. In addition, MonkeyOCR processes multi-page documents significantly faster (0.84 pages per second compared to 0.65 for MinerU and 0.12 for Qwen2.5-VL-7B). The 3B model can be efficiently deployed for inference on a single NVIDIA 3090 GPU. Code and models will be released at https://github.com/Yuliang-Liu/MonkeyOCR.

arxiv情報

著者 Zhang Li,Yuliang Liu,Qiang Liu,Zhiyin Ma,Ziyang Zhang,Shuo Zhang,Zidun Guo,Jiarui Zhang,Xinyu Wang,Xiang Bai
発行日 2025-06-05 16:34:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク