要約
グラフの生成方法は、ノードのセット間の複雑な依存関係をモデル化するのに十分な柔軟性を備えている必要があります。
同時に、生成されたグラフはドメイン依存の実現可能性条件を満たす必要があります。つまり、特定のアプリケーション ドメイン内での解釈を不可能にする特定の制約に違反してはなりません (たとえば、原子が非常に大きな数を持つ分子グラフなど)。
化学境界の)。
重要なのは、制約にはローカルな依存関係だけでなく、長期的な依存関係も含まれる可能性があることです。たとえば、サイクルの最大長を制限することができます。
現在、人工ニューラル ネットワークに基づく方法など、グラフに対する生成アプローチの大規模なクラスは、メッセージ パッシング スキームに基づいています。
これらのアプローチには、モデル化できる依存関係の最大範囲が大幅に制限される情報の「希薄化」の問題があります。
この問題に対処するために、グラフ文法の概念に基づいた生成的アプローチを提案します。
重要な新しいアイデアは、ドメイン依存の粗大化手順を導入して、長距離の依存関係に対するショートカットを提供することです。
我々は、1) 低分子薬剤と 2) RNA 二次構造の 2 つの領域での提案の有効性を示します。
最初のケースでは、生成された分子セット (MOSES) ベンチマーク スイートを介して、生成された分子グラフの品質を比較します。このベンチマーク スイートでは、生成された分子と実際の分子の間の距離、親油性、合成可能性、薬物らしさが評価されます。
2 番目のケースでは、このアプローチにより、最先端の RNA 分類器である「Infernal」共分散モデルによって目的の RNA ファミリーの有効な例として受け入れられる非常に大きなグラフ (数百のノードを含む) を生成できることを示します。
。
私たちの実装は github で入手できます: github.com/fabriziocosta/GraphLearn
要約(オリジナル)
Generative methods for graphs need to be sufficiently flexible to model complex dependencies between sets of nodes. At the same time, the generated graphs need to satisfy domain-dependent feasibility conditions, that is, they should not violate certain constraints that would make their interpretation impossible within the given application domain (e.g. a molecular graph where an atom has a very large number of chemical bounds). Crucially, constraints can involve not only local but also long-range dependencies: for example, the maximal length of a cycle can be bounded. Currently, a large class of generative approaches for graphs, such as methods based on artificial neural networks, is based on message passing schemes. These approaches suffer from information ‘dilution’ issues that severely limit the maximal range of the dependencies that can be modeled. To address this problem, we propose a generative approach based on the notion of graph grammars. The key novel idea is to introduce a domain-dependent coarsening procedure to provide short-cuts for long-range dependencies. We show the effectiveness of our proposal in two domains: 1) small drugs and 2) RNA secondary structures. In the first case, we compare the quality of the generated molecular graphs via the Molecular Sets (MOSES) benchmark suite, which evaluates the distance between generated and real molecules, their lipophilicity, synthesizability, and drug-likeness. In the second case, we show that the approach can generate very large graphs (with hundreds of nodes) that are accepted as valid examples for a desired RNA family by the ‘Infernal’ covariance model, a state-of-the-art RNA classifier. Our implementation is available on github: github.com/fabriziocosta/GraphLearn
arxiv情報
著者 | Stefan Mautner,Rolf Backofen,Fabrizio Costa |
発行日 | 2025-01-10 14:34:46+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google