要約
ほとんどの分子図パーサーは、ラスター画像(PNG)から化学構造を回復します。
ただし、多くのPDFには、文字、線、ポリゴンの明示的な場所と形状を与えるコマンドが含まれます。
これらの生まれたデジタルPDFプリミティブを入力として使用する新しいパーサーを提示します。
解析モデルは高速で正確であり、GPU、光学文字認識(OCR)、またはベクトル化を必要としません。
パーサーを使用してラスター画像に注釈を付け、ラスター画像で分子を認識するために新しいマルチタスクニューラルネットワークをトレーニングします。
スマイルと標準のベンチマークを使用してパーサーを評価し、自動エラーコンパイルをサポートし、スマイルベースの評価に見逃されたエラーを明らかにする分子グラフを直接比較する新しい評価プロトコルとともに評価します。
合成USPTOベンチマークでは、生まれたデジタルパーサーは98.4%(以前のモデルより1%高い)の認識率を取得し、ラスター画像の比較的単純なニューラルパーサーは、既存のニューラルアプローチ(数千対数百万の分子)よりも少ないトレーニングデータを使用して85%のレートを取得します。
要約(オリジナル)
Most molecular diagram parsers recover chemical structure from raster images (e.g., PNGs). However, many PDFs include commands giving explicit locations and shapes for characters, lines, and polygons. We present a new parser that uses these born-digital PDF primitives as input. The parsing model is fast and accurate, and does not require GPUs, Optical Character Recognition (OCR), or vectorization. We use the parser to annotate raster images and then train a new multi-task neural network for recognizing molecules in raster images. We evaluate our parsers using SMILES and standard benchmarks, along with a novel evaluation protocol comparing molecular graphs directly that supports automatic error compilation and reveals errors missed by SMILES-based evaluation. On the synthetic USPTO benchmark, our born-digital parser obtains a recognition rate of 98.4% (1% higher than previous models) and our relatively simple neural parser for raster images obtains a rate of 85% using less training data than existing neural approaches (thousands vs. millions of molecules).
arxiv情報
著者 | Ayush Kumar Shah,Bryan Manrique Amador,Abhisek Dey,Ming Creekmore,Blake Ocampo,Scott Denmark,Richard Zanibbi |
発行日 | 2025-02-26 17:16:28+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google