Nougat: Neural Optical Understanding for Academic Documents

要約

科学知識は主に書籍や科学雑誌に保存されており、多くの場合 PDF の形式で保存されています。
ただし、PDF 形式では、特に数式の意味情報が失われます。
私たちは、科学文書をマークアップ言語に処理するための光学式文字認識 (OCR) タスクを実行する Visual Transformer モデルである Nougat (Neural Optical Understanding for AcademicDocuments) を提案し、科学文書の新しいデータセットに対するモデルの有効性を実証します。
提案されたアプローチは、人間が読める文書と機械が読めるテキストの間のギャップを埋めることにより、デジタル時代における科学知識のアクセシビリティを高める有望なソリューションを提供します。
科学的テキスト認識に関する今後の研究を加速するために、モデルとコードをリリースします。

要約(オリジナル)

Scientific knowledge is predominantly stored in books and scientific journals, often in the form of PDFs. However, the PDF format leads to a loss of semantic information, particularly for mathematical expressions. We propose Nougat (Neural Optical Understanding for Academic Documents), a Visual Transformer model that performs an Optical Character Recognition (OCR) task for processing scientific documents into a markup language, and demonstrate the effectiveness of our model on a new dataset of scientific documents. The proposed approach offers a promising solution to enhance the accessibility of scientific knowledge in the digital age, by bridging the gap between human-readable documents and machine-readable text. We release the models and code to accelerate future work on scientific text recognition.

arxiv情報

著者 Lukas Blecher,Guillem Cucurull,Thomas Scialom,Robert Stojnic
発行日 2023-08-25 15:03:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク