要約
タイトル: グラフ構造分子の効率的な薬剤探索のための分散生成フレームワーク「GraphGANFed」
要約:
– 深層学習の進歩により、分子探索など、様々な分野で使用されるようになってきた
– 分子探索において、生成的対抗ネットワーク(GAN)は、既存の分子と生成された分子を区別するディスクリミネータと、新しい分子を生成するジェネレータからなるため、学習するデータセットの規模が大きく、同様の特性を持つ新しい分子を生成することができるため、主要テクノロジーの1つである
– しかし、異なる製薬会社は、分子データの地理的分布や、データの機密性などから、ローカルデータセットを共有することをためらうことがあるため、GANを集中的に学習することができない
– そこで、本論文では、グラフ畳み込みニューラルネットワーク(GCN)、GAN、分散学習(FL)を統合した GraphGANFed フレームワークを提案し、ローカルデータセットを共有することなく、新しい分子を生成することが可能である
– GraphGANFedでは、ディスクリミネータは分子グラフとして表される分子から特徴をより正確に捉えるために、GCNとして実装され、FLはデータプライバシーを保ちながらディスクリミネータとジェネレータの両方を分散的に学習するために使用される
– 3つのベンチマークデータセットに基づく広範なシミュレーションを行い、GraphGANFedの実現可能性と効果を証明している
– GraphGANFedによって生成された分子は、高い新規性(=100)と多様性(>0.9)を達成することができる
– シミュレーションの結果からは、1)小さなデータセットでは、複雑性の低いディスクリミネーターモデルがモード崩壊を回避するのに役立つ、2)異なる評価指標の間にはトレードオフがあり、3)適切なドロップアウト率を持つGNとDNのモード崩壊を回避することができることが示されている。
要約(オリジナル)
Recent advances in deep learning have accelerated its use in various applications, such as cellular image analysis and molecular discovery. In molecular discovery, a generative adversarial network (GAN), which comprises a discriminator to distinguish generated molecules from existing molecules and a generator to generate new molecules, is one of the premier technologies due to its ability to learn from a large molecular data set efficiently and generate novel molecules that preserve similar properties. However, different pharmaceutical companies may be unwilling or unable to share their local data sets due to the geo-distributed and sensitive nature of molecular data sets, making it impossible to train GANs in a centralized manner. In this paper, we propose a Graph convolutional network in Generative Adversarial Networks via Federated learning (GraphGANFed) framework, which integrates graph convolutional neural Network (GCN), GAN, and federated learning (FL) as a whole system to generate novel molecules without sharing local data sets. In GraphGANFed, the discriminator is implemented as a GCN to better capture features from molecules represented as molecular graphs, and FL is used to train both the discriminator and generator in a distributive manner to preserve data privacy. Extensive simulations are conducted based on the three bench-mark data sets to demonstrate the feasibility and effectiveness of GraphGANFed. The molecules generated by GraphGANFed can achieve high novelty (=100) and diversity (> 0.9). The simulation results also indicate that 1) a lower complexity discriminator model can better avoid mode collapse for a smaller data set, 2) there is a tradeoff among different evaluation metrics, and 3) having the right dropout ratio of the generator and discriminator can avoid mode collapse.
arxiv情報
著者 | Daniel Manu,Jingjing Yao,Wuji Liu,Xiang Sun |
発行日 | 2023-04-11 21:15:28+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, OpenAI