MolNexTR: A Generalized Deep Learning Model for Molecular Image Recognition

要約

化学構造認識の分野では、分子画像をグラフ構造と SMILES 文字列に変換する作業は、主に化学文献で広く普及しているさまざまな描画スタイルと慣例により、重大な課題となっています。
このギャップを埋めるために、私たちは、強力な畳み込みニューラル ネットワークのバリアントである ConvNext と Vision-TRansformer の長所を連携して融合する、新しい画像からグラフへの深層学習モデルである MolNexTR を提案しました。
この統合により、分子画像からの局所的特徴と全体的特徴の両方のより微妙な抽出が容易になります。
MolNexTR は、原子と結合を同時に予測し、それらの配置規則を理解できます。
また、キラリティーを識別し、短縮構造を解読するために、記号化学原理を柔軟に統合することにも優れています。
さらに、改良されたデータ拡張モジュール、画像汚染モジュール、最終的な SMILES 出力を取得するための後処理モジュールなど、一連の高度なアルゴリズムが組み込まれています。
これらのモジュールは、実際の文献に見られる多様なスタイルの分子画像に対するモデルの堅牢性を相乗的に強化します。
当社のテストセットでは、MolNexTR は優れたパフォーマンスを実証し、81 ~ 97% の精度を達成し、分子構造認識の分野で大きな進歩を遂げました。
科学的貢献: MolNexTR は、複雑な分子画像の特徴を抽出するための独自のデュアル ストリーム エンコーダーを組み込んだ新しい画像からグラフへのモデルであり、原子と結合の配置規則を理解しながら化学規則を組み合わせて原子と結合を予測します。
さらに、一連の新しい拡張アルゴリズムを採用して、モデルの堅牢性とパフォーマンスを大幅に強化します。

要約(オリジナル)

In the field of chemical structure recognition, the task of converting molecular images into graph structures and SMILES string stands as a significant challenge, primarily due to the varied drawing styles and conventions prevalent in chemical literature. To bridge this gap, we proposed MolNexTR, a novel image-to-graph deep learning model that collaborates to fuse the strengths of ConvNext, a powerful Convolutional Neural Network variant, and Vision-TRansformer. This integration facilitates a more nuanced extraction of both local and global features from molecular images. MolNexTR can predict atoms and bonds simultaneously and understand their layout rules. It also excels at flexibly integrating symbolic chemistry principles to discern chirality and decipher abbreviated structures. We further incorporate a series of advanced algorithms, including improved data augmentation module, image contamination module, and a post-processing module to get the final SMILES output. These modules synergistically enhance the model’s robustness against the diverse styles of molecular imagery found in real literature. In our test sets, MolNexTR has demonstrated superior performance, achieving an accuracy rate of 81-97%, marking a significant advancement in the domain of molecular structure recognition. Scientific contribution: MolNexTR is a novel image-to-graph model that incorporates a unique dual-stream encoder to extract complex molecular image features, and combines chemical rules to predict atoms and bonds while understanding atom and bond layout rules. In addition, it employs a series of novel augmentation algorithms to significantly enhance the robustness and performance of the model.

arxiv情報

著者 Yufan Chen,Ching Ting Leung,Yong Huang,Jianwei Sun,Hao Chen,Hanyu Gao
発行日 2024-03-06 13:17:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク