Tanimoto Random Features for Scalable Molecular Machine Learning

要約

タニモト係数は、距離計量または正定カーネルとして、離散指紋として表される分子間の類似性を測定するために一般的に使用されます。
多くのカーネル手法はランダム特徴近似を使用して高速化できますが、現時点では、Tanimoto カーネルにはそのような近似が不足しています。
この論文では、このカーネルを大規模なデータセットに拡張できるようにする 2 種類の新しいランダム特徴を提案し、その過程で実数ベクトルに対するカーネルの新しい拡張を発見します。
これらのランダムな特徴を理論的に特徴付け、グラム行列のスペクトル ノルムの誤差限界を提供します。
実験的に、この研究で提案されたランダム特徴が現実世界のデータセットの谷本係数を近似するのに効果的であること、およびこの研究で調査されたカーネルが分子特性の予測および最適化タスクに役立つことを示します。

要約(オリジナル)

The Tanimoto coefficient is commonly used to measure the similarity between molecules represented as discrete fingerprints, either as a distance metric or a positive definite kernel. While many kernel methods can be accelerated using random feature approximations, at present there is a lack of such approximations for the Tanimoto kernel. In this paper we propose two kinds of novel random features to allow this kernel to scale to large datasets, and in the process discover a novel extension of the kernel to real vectors. We theoretically characterize these random features, and provide error bounds on the spectral norm of the Gram matrix. Experimentally, we show that the random features proposed in this work are effective at approximating the Tanimoto coefficient in real-world datasets and that the kernels explored in this work are useful for molecular property prediction and optimization tasks.

arxiv情報

著者 Austin Tripp,Sergio Bacallado,Sukriti Singh,José Miguel Hernández-Lobato
発行日 2023-06-26 16:11:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク