Unraveling Molecular Structure: A Multimodal Spectroscopic Dataset for Chemistry

要約

分光技術は、分子の構造を決定するための不可欠なツールです。
核磁気共鳴 (NMR)、赤外分光法、質量分析などのさまざまな分光技術により、官能基の有無を含む分子構造についての洞察が得られます。
化学者は、さまざまな方法の相補的な性質を有利に活用します。
しかし、さまざまな分光技術からのスペクトルを含む包括的なマルチモーダル データセットが不足しているため、機械学習のアプローチは主にスペクトルから分子構造を予測する単一モダリティ タスクに限定されています。
ここでは、特許の化学反応から抽出された79万分子のシミュレーション $^1$H-NMR、$^{13}$C-NMR、HSQC-NMR、赤外、および質量スペクトル(正および負イオンモード)で構成されるデータセットを紹介します。
データ。
このデータセットにより、人間の専門家が採用するアプローチをエミュレートして、複数の分光モダリティからの情報を統合するための基礎モデルの開発が可能になります。
さらに、構造解明、標的分子のスペクトル予測、官能基予測などの単一モダリティタスクを評価するためのベンチマークも提供します。
このデータセットには、構造解明を自動化し、合成から構造決定までの分子探索パイプラインを合理化する可能性があります。
ベンチマークのデータセットとコードは、https://rxn4chemistry.github.io/multimodal-spectroscope-dataset にあります。

要約(オリジナル)

Spectroscopic techniques are essential tools for determining the structure of molecules. Different spectroscopic techniques, such as Nuclear magnetic resonance (NMR), Infrared spectroscopy, and Mass Spectrometry, provide insight into the molecular structure, including the presence or absence of functional groups. Chemists leverage the complementary nature of the different methods to their advantage. However, the lack of a comprehensive multimodal dataset, containing spectra from a variety of spectroscopic techniques, has limited machine-learning approaches mostly to single-modality tasks for predicting molecular structures from spectra. Here we introduce a dataset comprising simulated $^1$H-NMR, $^{13}$C-NMR, HSQC-NMR, Infrared, and Mass spectra (positive and negative ion modes) for 790k molecules extracted from chemical reactions in patent data. This dataset enables the development of foundation models for integrating information from multiple spectroscopic modalities, emulating the approach employed by human experts. Additionally, we provide benchmarks for evaluating single-modality tasks such as structure elucidation, predicting the spectra for a target molecule, and functional group predictions. This dataset has the potential automate structure elucidation, streamlining the molecular discovery pipeline from synthesis to structure determination. The dataset and code for the benchmarks can be found at https://rxn4chemistry.github.io/multimodal-spectroscopic-dataset.

arxiv情報

著者 Marvin Alberts,Oliver Schilter,Federico Zipoli,Nina Hartrampf,Teodoro Laino
発行日 2024-10-29 15:54:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, physics.chem-ph パーマリンク