要約
タイトル:VAEは分子グラフを復元するのが下手なのか?
要約:
– 現代の分子の生成モデルは、分子グラフの変分自己符号化器(VAE)で作られている。
– トレーニング損失の1つは入力の復元に関係しているが、最新のモデルの復元能力は大規模で化学的に多様なデータセットで十分比較されていない。
– 本研究では、いくつかの最新の生成モデルを同じ条件で評価したところ、彼らの再現精度は驚くほど低く、以前に報告されたよりも悪いということが示された。
– しかし、本研究では、再構成を改善することが、サンプリングまたは最適化性能の向上に直接的につながるわけではないことがわかった。
– MoLeRモデルからの失敗した再構成は、通常、同じモチーフを異なる方法で組み立て、溶解性などの類似した化学的性質を持つ同様の入力となる。
– 最後に、入力分子と失敗した再構成は、異なるエンコーダによって統計的に区別可能な事後分布にマップされることが通常であり、事後崩壊がVAEが分子グラフを復元するのが下手である理由を完全に説明できないことを示唆している。
要約(オリジナル)
Many contemporary generative models of molecules are variational auto-encoders of molecular graphs. One term in their training loss pertains to reconstructing the input, yet reconstruction capabilities of state-of-the-art models have not yet been thoroughly compared on a large and chemically diverse dataset. In this work, we show that when several state-of-the-art generative models are evaluated under the same conditions, their reconstruction accuracy is surprisingly low, worse than what was previously reported on seemingly harder datasets. However, we show that improving reconstruction does not directly lead to better sampling or optimization performance. Failed reconstructions from the MoLeR model are usually similar to the inputs, assembling the same motifs in a different way, and possess similar chemical properties such as solubility. Finally, we show that the input molecule and its failed reconstruction are usually mapped by the different encoders to statistically distinguishable posterior distributions, hinting that posterior collapse may not fully explain why VAEs are bad at reconstructing molecular graphs.
arxiv情報
| 著者 | Hagen Muenkler,Hubert Misztela,Michal Pikusa,Marwin Segler,Nadine Schneider,Krzysztof Maziarz |
| 発行日 | 2023-05-04 17:58:14+00:00 |
| arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, OpenAI