要約
化学文献の自動分析には、新材料や新薬の発見を加速する計り知れない可能性があります。
特許文書や科学論文の重要な情報の多くは、分子構造を表す図に含まれています。
ただし、詳細な情報の量、描画スタイルの多様性、トレーニング データの必要性により、正確な化学構造を自動的に解析することは困難な課題です。
この研究では、化学構造を視覚的に認識するための MolGrapher を導入します。
まず、ディープキーポイント検出器が原子を検出します。
次に、候補となるすべての原子と結合をノードとして扱い、グラフに配置します。
この構成により、分子の自然なグラフ表現が可能になります。
最後に、グラフ ニューラル ネットワークを使用してグラフ内の原子ノードと結合ノードを分類します。
実際のトレーニング データの不足に対処するために、多様で現実的な結果を生成する合成データ生成パイプラインを提案します。
さらに、この重要なテーマに関する研究を促進するために、注釈付きの実際の分子画像の大規模ベンチマークである USPTO-30K を導入します。
5 つのデータセットに対する広範な実験により、私たちのアプローチがほとんどの設定で従来の学習ベースの方法よりも大幅に優れていることがわかりました。
コード、モデル、データセットが利用可能です。
要約(オリジナル)
The automatic analysis of chemical literature has immense potential to accelerate the discovery of new materials and drugs. Much of the critical information in patent documents and scientific articles is contained in figures, depicting the molecule structures. However, automatically parsing the exact chemical structure is a formidable challenge, due to the amount of detailed information, the diversity of drawing styles, and the need for training data. In this work, we introduce MolGrapher to recognize chemical structures visually. First, a deep keypoint detector detects the atoms. Second, we treat all candidate atoms and bonds as nodes and put them in a graph. This construct allows a natural graph representation of the molecule. Last, we classify atom and bond nodes in the graph with a Graph Neural Network. To address the lack of real training data, we propose a synthetic data generation pipeline producing diverse and realistic results. In addition, we introduce a large-scale benchmark of annotated real molecule images, USPTO-30K, to spur research on this critical topic. Extensive experiments on five datasets show that our approach significantly outperforms classical and learning-based methods in most settings. Code, models, and datasets are available.
arxiv情報
著者 | Lucas Morin,Martin Danelljan,Maria Isabel Agea,Ahmed Nassar,Valery Weber,Ingmar Meijer,Peter Staar,Fisher Yu |
発行日 | 2023-08-23 16:16:11+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google