要約
私たちは、PDF のテキスト、フォントの特徴、および PDF のビットマップ画像レンダリングを別個のモダリティとして利用し、マルチモーダルな分類問題として学術 PDF 論文からの数学的ステートメントとその証明の抽出に取り組みます。
私たちは、定理のような環境と証明を抽出するために特別に設計されたモジュール式の逐次マルチモーダル機械学習アプローチを提案します。
これは、マルチモーダル段落埋め込みを生成するクロスモーダル アテンション メカニズムに基づいており、それが新しいマルチモーダル スライディング ウィンドウ トランスフォーマー アーキテクチャに供給されて、段落全体にわたる連続した情報がキャプチャされます。
当社のドキュメント AI 手法は、OCR 前処理、推論中の LaTeX ソース、クロスモダリティ関係を理解するための特殊な損失に関するカスタム事前トレーニングの必要性を排除する点で際立っています。
単一ページ レベルで動作する多くの従来のアプローチとは異なり、私たちのアプローチは複数ページの PDF に直接適用でき、長い科学数学文書でよく見られる改ページをシームレスに処理できます。
私たちのアプローチは、単峰性から多峰性への移行、そして最終的に段落にわたる逐次モデリングの組み込みによって得られるパフォーマンスの向上を示しています。
要約(オリジナル)
We address the extraction of mathematical statements and their proofs from scholarly PDF articles as a multimodal classification problem, utilizing text, font features, and bitmap image renderings of PDFs as distinct modalities. We propose a modular sequential multimodal machine learning approach specifically designed for extracting theorem-like environments and proofs. This is based on a cross-modal attention mechanism to generate multimodal paragraph embeddings, which are then fed into our novel multimodal sliding window transformer architecture to capture sequential information across paragraphs. Our document AI methodology stands out as it eliminates the need for OCR preprocessing, LaTeX sources during inference, or custom pre-training on specialized losses to understand cross-modality relationships. Unlike many conventional approaches that operate at a single-page level, ours can be directly applied to multi-page PDFs and seamlessly handles the page breaks often found in lengthy scientific mathematical documents. Our approach demonstrates performance improvements obtained by transitioning from unimodality to multimodality, and finally by incorporating sequential modeling over paragraphs.
arxiv情報
著者 | Shrey Mishra,Antoine Gauquier,Pierre Senellart |
発行日 | 2024-10-11 15:26:14+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google