MMPolymer: A Multimodal Multitask Pretraining Framework for Polymer Property Prediction


ポリマーは、多数の同一または類似のモノマーの共有結合によって構築される高分子量化合物であり、その 3D 構造は複雑でありながら無視できない規則性を示します。
通常、可塑性、導電性、生体適合性などのポリマーの特性は、その 3D 構造と高度に相関しています。
しかし、既存のポリマー特性予測方法は、重要な 3D 構造情報を無視しながら、ポリマー SMILES シーケンス (P-SMILES 文字列) から学習した情報に大きく依存しているため、最適なパフォーマンスが得られません。
この研究では、下流のポリマー特性予測タスクを促進するためにポリマーの 1D 逐次情報と 3D 構造情報を組み込んだ新しいマルチモーダル マルチタスク事前トレーニング フレームワークである MMPolymer を提案します。
さらに、ポリマー 3D データの不足を考慮して、3D 構造情報を効果的に抽出するための「スター置換」戦略をさらに導入します。
MMPolymer は、事前トレーニング中に、マスクされたトークンを予測し、明確な 3D 座標を回復することに加えて、潜在表現のクロスモーダル アライメントを実現します。
次に、教師あり学習パラダイムにおける下流のポリマー特性予測タスク用に、事前トレーニングされた MMPolymer をさらに微調整します。
実験では、MMPolymer が下流の特性予測タスクにおいて最先端のパフォーマンスを達成することが示されています。
さらに、事前トレーニングされた MMPolymer を考慮すると、微調整段階で単一のモダリティを利用するだけでも既存の方法よりも優れたパフォーマンスを発揮する可能性があり、ポリマー特徴の抽出と利用における MMPolymer の卓越した能力を示しています。


Polymers are high-molecular-weight compounds constructed by the covalent bonding of numerous identical or similar monomers so that their 3D structures are complex yet exhibit unignorable regularity. Typically, the properties of a polymer, such as plasticity, conductivity, bio-compatibility, and so on, are highly correlated with its 3D structure. However, existing polymer property prediction methods heavily rely on the information learned from polymer SMILES sequences (P-SMILES strings) while ignoring crucial 3D structural information, resulting in sub-optimal performance. In this work, we propose MMPolymer, a novel multimodal multitask pretraining framework incorporating polymer 1D sequential and 3D structural information to encourage downstream polymer property prediction tasks. Besides, considering the scarcity of polymer 3D data, we further introduce the ‘Star Substitution’ strategy to extract 3D structural information effectively. During pretraining, in addition to predicting masked tokens and recovering clear 3D coordinates, MMPolymer achieves the cross-modal alignment of latent representations. Then we further fine-tune the pretrained MMPolymer for downstream polymer property prediction tasks in the supervised learning paradigm. Experiments show that MMPolymer achieves state-of-the-art performance in downstream property prediction tasks. Moreover, given the pretrained MMPolymer, utilizing merely a single modality in the fine-tuning phase can also outperform existing methods, showcasing the exceptional capability of MMPolymer in polymer feature extraction and utilization.


著者 Fanmeng Wang,Wentao Guo,Minjie Cheng,Shen Yuan,Hongteng Xu,Zhifeng Gao
発行日 2024-07-26 13:24:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, Google

カテゴリー: cond-mat.soft, cs.AI, cs.LG パーマリンク