Why Deep Models Often cannot Beat Non-deep Counterparts on Molecular Property Prediction?

要約

分子特性予測 (MPP) は創薬パイプラインにおける重要なタスクであり、ディープ ニューラル ネットワークの進歩のおかげで最近かなりの注目を集めています。
ただし、最近の研究では、MPP ではディープ モデルが従来の非ディープ モデルに勝つのに苦労していることが明らかになりました。
この研究では、14 の分子データセットで 12 の代表的なモデル (3 つの非ディープ モデルと 9 つのディープ モデル) のベンチマークを実行します。
これまでで最も包括的な研究を通じて、次の重要な観察が得られました。 \textbf{(\romannumeral 1)} ディープ モデルは一般に、ディープでないモデルを上回るパフォーマンスを発揮できません。
\textbf{(\romannumeral 2)} MPP 上の深層モデルの失敗は、分子データセットのサイズが小さいことだけに起因するわけではありません。
重要なのは、不規則な分子データ パターンです。
\textbf{(\romannumeral 3)} 特に、分子フィンガープリントを入力として使用するツリー モデルは、他の競合モデルよりも優れたパフォーマンスを発揮する傾向があります。
さらに、これらの現象の根底にある分子データの固有のパターンとさまざまなモデルの誘導バイアスについて広範な実証的調査を行っています。

要約(オリジナル)

Molecular property prediction (MPP) is a crucial task in the drug discovery pipeline, which has recently gained considerable attention thanks to advances in deep neural networks. However, recent research has revealed that deep models struggle to beat traditional non-deep ones on MPP. In this study, we benchmark 12 representative models (3 non-deep models and 9 deep models) on 14 molecule datasets. Through the most comprehensive study to date, we make the following key observations: \textbf{(\romannumeral 1)} Deep models are generally unable to outperform non-deep ones; \textbf{(\romannumeral 2)} The failure of deep models on MPP cannot be solely attributed to the small size of molecular datasets. What matters is the irregular molecule data pattern; \textbf{(\romannumeral 3)} In particular, tree models using molecular fingerprints as inputs tend to perform better than other competitors. Furthermore, we conduct extensive empirical investigations into the unique patterns of molecule data and inductive biases of various models underlying these phenomena.

arxiv情報

著者 Jun Xia,Lecheng Zhang,Xiao Zhu,Stan Z. Li
発行日 2023-06-30 14:29:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CE, cs.LG パーマリンク