要約
暗黙的なグラフ生成モデルを医学や材料設計のための新しい分子の設計や発見に使用できるという期待が高まっています。
これらの分子はまだ発見されていないため、当然のことながら、既知の分子の分布の中で未調査の領域、またはほとんどサポートされていない領域に存在します。
ただし、陰的グラフ生成モデルのこれまでの評価方法は、厚いサポートから計算された統計 (グラフ プロパティの平均と分散など) を検証することに焦点を当てていました。
したがって、新しいグラフを生成するという目的と評価方法の間には不一致があります。
この評価ギャップに対処するために、垂直検証 (VV) と呼ばれる新しい評価方法を設計します。この方法では、トレーニングとテストの分割手順中に薄いサポート領域を体系的に作成し、生成されたサンプルを再重み付けして、保持されたテスト データと比較できるようにします。
この手順は、分割がサンプルの特徴に依存する点を除けば、標準のトレーニングテスト手順を一般化したものと見なすことができます。
薄いサポート領域でのパフォーマンスが望ましい目標である場合、私たちの方法を使用してモデル選択を実行できることを示します。
副次的な利点として、私たちのアプローチは暗記に代表される過学習をより適切に検出できることも示します。
要約(オリジナル)
There has been a growing excitement that implicit graph generative models could be used to design or discover new molecules for medicine or material design. Because these molecules have not been discovered, they naturally lie in unexplored or scarcely supported regions of the distribution of known molecules. However, prior evaluation methods for implicit graph generative models have focused on validating statistics computed from the thick support (e.g., mean and variance of a graph property). Therefore, there is a mismatch between the goal of generating novel graphs and the evaluation methods. To address this evaluation gap, we design a novel evaluation method called Vertical Validation (VV) that systematically creates thin support regions during the train-test splitting procedure and then reweights generated samples so that they can be compared to the held-out test data. This procedure can be seen as a generalization of the standard train-test procedure except that the splits are dependent on sample features. We demonstrate that our method can be used to perform model selection if performance on thin support regions is the desired goal. As a side benefit, we also show that our approach can better detect overfitting as exemplified by memorization.
arxiv情報
著者 | Mai Elkady,Thu Bui,Bruno Ribeiro,David I. Inouye |
発行日 | 2024-11-20 14:29:59+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google