要約
CO 官能化金属チップを備えた非接触原子間力顕微鏡 (HR-AFM と呼ばれる) を使用すると、表面に吸着した個々の分子の内部構造にまったく前例のない解像度でアクセスできます。
これまでの研究では、ディープラーニング(DL)モデルが、高さ一定の HR-AFM 画像の 3D スタックにエンコードされた化学情報および構造情報を取得し、分子の同定につながることが示されています。
この研究では、部分構造と類似性の検索のために開発された、トポロジカル フィンガープリント、半径 2 の 1024 ビット拡張接続化学フィンガープリント (ECFP4) の観点から分子構造の十分に確立された記述を使用することで、それらの制限を克服しました。
ECFP は、分子の局所的な構造情報を提供し、各ビットは分子内の特定の部分構造と相関します。
当社の DL モデルは、この最適化された構造記述子を 3D HR-AFM スタックから抽出し、仮想スクリーニングを通じてそれを使用して、理論上の画像に対して 95.4% の検索精度で予測された ECFP4 から分子を特定することができます。
さらに、このアプローチは、以前の DL モデルとは異なり、候補分子のそれぞれに信頼度スコア (Tanimoto 類似度) を割り当て、識別の信頼性に関する情報を提供します。
構造上、分子内に特定の部分構造が存在する回数は、機械学習アプリケーションに役立つようにするために必要なハッシュ プロセス中に失われます。
私たちは、同じ HR から予測する別の DL モデルによって提供されるグローバル情報で指紋ベースの仮想スクリーニングを補完できることを示します。AFM は化学式をスタックし、識別精度を最大 97.6% まで高めます。
最後に、実験画像を使用して限定的なテストを実行し、実際の条件下でのこのパイプラインの適用に向けて有望な結果が得られます。
要約(オリジナル)
Non–Contact Atomic Force Microscopy with CO–functionalized metal tips (referred to as HR-AFM) provides access to the internal structure of individual molecules adsorbed on a surface with totally unprecedented resolution. Previous works have shown that deep learning (DL) models can retrieve the chemical and structural information encoded in a 3D stack of constant-height HR–AFM images, leading to molecular identification. In this work, we overcome their limitations by using a well-established description of the molecular structure in terms of topological fingerprints, the 1024–bit Extended Connectivity Chemical Fingerprints of radius 2 (ECFP4), that were developed for substructure and similarity searching. ECFPs provide local structural information of the molecule, each bit correlating with a particular substructure within the molecule. Our DL model is able to extract this optimized structural descriptor from the 3D HR–AFM stacks and use it, through virtual screening, to identify molecules from their predicted ECFP4 with a retrieval accuracy on theoretical images of 95.4\%. Furthermore, this approach, unlike previous DL models, assigns a confidence score, the Tanimoto similarity, to each of the candidate molecules, thus providing information on the reliability of the identification. By construction, the number of times a certain substructure is present in the molecule is lost during the hashing process, necessary to make them useful for machine learning applications. We show that it is possible to complement the fingerprint-based virtual screening with global information provided by another DL model that predicts from the same HR–AFM stacks the chemical formula, boosting the identification accuracy up to a 97.6\%. Finally, we perform a limited test with experimental images, obtaining promising results towards the application of this pipeline under real conditions
arxiv情報
著者 | Manuel González Lastre,Pablo Pou,Miguel Wiche,Daniel Ebeling,Andre Schirmeisen,Rubén Pérez |
発行日 | 2024-05-07 13:47:35+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google