ChemScraper: Leveraging PDF Graphics Instructions for Molecular Diagram Parsing

要約

ほとんどの分子図パーサーは、ラスター画像 (PNG など) から化学構造を復元します。
ただし、多くの PDF には、文字、線、多角形の位置と形状を明示的に指定するコマンドが含まれています。
これらのボーンデジタル PDF プリミティブを入力として使用する新しいパーサーを紹介します。
解析モデルは高速かつ正確で、GPU、光学式文字認識 (OCR)、ベクトル化を必要としません。
パーサーを使用してラスター画像に注釈を付け、ラスター画像内の分子を認識するための新しいマルチタスク ニューラル ネットワークをトレーニングします。
当社では、分子グラフを直接比較する新しい評価プロトコルとともに、SMILES と標準ベンチマークを使用してパーサーを評価します。これは、自動エラーコンパイルをサポートし、SMILES ベースの評価で見逃されたエラーを明らかにします。

要約(オリジナル)

Most molecular diagram parsers recover chemical structure from raster images (e.g., PNGs). However, many PDFs include commands giving explicit locations and shapes for characters, lines, and polygons. We present a new parser that uses these born-digital PDF primitives as input. The parsing model is fast and accurate, and does not require GPUs, Optical Character Recognition (OCR), or vectorization. We use the parser to annotate raster images and then train a new multi-task neural network for recognizing molecules in raster images. We evaluate our parsers using SMILES and standard benchmarks, along with a novel evaluation protocol comparing molecular graphs directly that supports automatic error compilation and reveals errors missed by SMILES-based evaluation.

arxiv情報

著者 Ayush Kumar Shah,Bryan Manrique Amador,Abhisek Dey,Ming Creekmore,Blake Ocampo,Scott Denmark,Richard Zanibbi
発行日 2024-04-26 16:43:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク