Graph Neural Networks for Surfactant Multi-Property Prediction

要約

界面活性剤は、化粧品、洗浄剤、油回収、ドラッグデリバリーシステムなど、さまざまな産業分野で重要性が高い。そのため、界面活性剤の定量的構造物性相関(QSPR)モデルが数多く開発されている。各予測モデルは通常、1つの界面活性剤クラス、主に非イオン性界面活性剤に焦点を当てています。グラフニューラルネットワーク(GNN)は、イオン液体、ポリマー、および一般的な薬剤の特性予測に優れた予測性能を発揮しています。特に界面活性剤の場合、GNNはミセル化に関連する重要な界面活性剤の特性である臨界ミセル濃度(CMC)の予測に成功している。QSPRとGNNモデルの予測能力における重要な要因は、学習に利用可能なデータである。広範な文献検索に基づき、429分子からなる利用可能な最大のCMCデータベースと、164分子からなる、泡立ちに関連するもう一つの界面活性剤特性である表面過剰濃度($Gamma$$_{m}$)に関する最初の大規模データコレクションを作成した。次に、CMCと$Gamma$_{m}$を予測するGNNモデルを開発し、異なる学習アプローチ(シングルタスク学習とマルチタスク学習)、異なる学習戦略(アンサンブル学習と転移学習)を探索する。我々は、全ての$Gamma$_{m}$とCMCデータで訓練されたアンサンブル学習によるマルチタスクGNNが最も良い性能を示すことを発見した。最後に、工業グレードの純成分界面活性剤について、我々のCMCモデルの一般化能力をテストする。GNNは、CMCについて非常に正確な予測をもたらし、将来の産業応用に大きな可能性を示す。

要約(オリジナル)

Surfactants are of high importance in different industrial sectors such as cosmetics, detergents, oil recovery and drug delivery systems. Therefore, many quantitative structure-property relationship (QSPR) models have been developed for surfactants. Each predictive model typically focuses on one surfactant class, mostly nonionics. Graph Neural Networks (GNNs) have exhibited a great predictive performance for property prediction of ionic liquids, polymers and drugs in general. Specifically for surfactants, GNNs can successfully predict critical micelle concentration (CMC), a key surfactant property associated with micellization. A key factor in the predictive ability of QSPR and GNN models is the data available for training. Based on extensive literature search, we create the largest available CMC database with 429 molecules and the first large data collection for surface excess concentration ($\Gamma$$_{m}$), another surfactant property associated with foaming, with 164 molecules. Then, we develop GNN models to predict the CMC and $\Gamma$$_{m}$ and we explore different learning approaches, i.e., single- and multi-task learning, as well as different training strategies, namely ensemble and transfer learning. We find that a multi-task GNN with ensemble learning trained on all $\Gamma$$_{m}$ and CMC data performs best. Finally, we test the ability of our CMC model to generalize on industrial grade pure component surfactants. The GNN yields highly accurate predictions for CMC, showing great potential for future industrial applications.

arxiv情報

著者 Christoforos Brozos,Jan G. Rittig,Sandip Bhattacharya,Elie Akanny,Christina Kohlmann,Alexander Mitsos
発行日 2024-01-03 18:32:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.LG, physics.chem-ph パーマリンク