Evaluating Self-Supervised Learning for Molecular Graph Embeddings


グラフ自己教師あり学習 (GSSL) は、専門家によるラベル付けを行わずにエンベディングを取得するための堅牢な経路を提供します。この機能は、潜在的な分子の数が膨大でラベルを取得するコストが高いため、分子グラフに重大な影響を及ぼします。
ただし、GSSL メソッドは、特定のドメイン内での最適化を目的としたものではなく、さまざまな下流タスク間での転送可能性を目的として設計されています。
この課題に対処するために、解釈可能で多様な属性を持つ分子グラフ埋め込みの詳細なプロファイルを生成する「分子グラフ表現評価」(MOLGRAPHEVAL) を紹介します。
MOLGRAPHEVAL は、(i) 一般グラフ、(ii) 分子部分構造、および (iii) 埋め込み空間プロパティの 3 つのカテゴリにグループ化されたプローブ タスクのスイートを提供します。
MOLGRAPHEVAL を活用して、現在のダウンストリーム データセットと一連のタスクの両方に対して既存の GSSL メソッドのベンチマークを行うことにより、既存のデータセットのみから引き出された推論と、より微妙な調査から導き出された推論との間の重大な矛盾が明らかになります。


Graph Self-Supervised Learning (GSSL) provides a robust pathway for acquiring embeddings without expert labelling, a capability that carries profound implications for molecular graphs due to the staggering number of potential molecules and the high cost of obtaining labels. However, GSSL methods are designed not for optimisation within a specific domain but rather for transferability across a variety of downstream tasks. This broad applicability complicates their evaluation. Addressing this challenge, we present ‘Molecular Graph Representation Evaluation’ (MOLGRAPHEVAL), generating detailed profiles of molecular graph embeddings with interpretable and diversified attributes. MOLGRAPHEVAL offers a suite of probing tasks grouped into three categories: (i) generic graph, (ii) molecular substructure, and (iii) embedding space properties. By leveraging MOLGRAPHEVAL to benchmark existing GSSL methods against both current downstream datasets and our suite of tasks, we uncover significant inconsistencies between inferences drawn solely from existing datasets and those derived from more nuanced probing. These findings suggest that current evaluation methodologies fail to capture the entirety of the landscape.


著者 Hanchen Wang,Jean Kaddour,Shengchao Liu,Jian Tang,Joan Lasenby,Qi Liu
発行日 2023-06-08 15:52:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, q-bio.QM パーマリンク