Linear-scaling kernels for protein sequences and small molecules outperform deep learning while providing uncertainty quantitation and improved interpretability

要約

ガウス プロセス (GP) は、不確実性の信頼できる定量化や解釈可能性の向上など、機械学習の回帰タスクにいくつかの利点を提供するベイズ モデルです。
それらの採用は、過度の計算コストと、配列 (アミノ酸配列やヌクレオチド配列など) やグラフ (小分子を表すものなど) の分析に適用することが難しいため、妨げられてきました。
この研究では、GP モデルをフィッティングするための効率的でスケーラブルなアプローチと、グラフまたはシーケンス サイズに線形にスケールする高速コンボリューション カーネルを開発します。
これらの改善は、xGPR と呼ばれるオープンソース Python ライブラリを構築することによって実装されます。
私たちは、小分子、タンパク質配列、表形式データを含む 20 のベンチマークで、xGPR のパフォーマンスを、報告されているさまざまな深層学習モデルのパフォーマンスと比較します。
xGRP がはるかに短いトレーニング時間で非常に競争力のあるパフォーマンスを達成することを示します。
さらに、配列データとグラフデータ用の新しいカーネルも開発し、タンパク質や小分子の重要な特性の予測において、xGPR が畳み込みニューラル ネットワークよりも一般的に優れていることを示します。
重要なのは、xGPR は、一般的な深層学習モデルからは得られない不確実性情報を提供することです。
さらに、xGPR は、クラスタリングとデータの視覚化に使用できる入力データの表現を提供します。
これらの結果は、xGPR がタンパク質工学や創薬に広く役立つ強力で汎用的なツールを提供することを示しています。

要約(オリジナル)

Gaussian process (GP) is a Bayesian model which provides several advantages for regression tasks in machine learning such as reliable quantitation of uncertainty and improved interpretability. Their adoption has been precluded by their excessive computational cost and by the difficulty in adapting them for analyzing sequences (e.g. amino acid and nucleotide sequences) and graphs (e.g. ones representing small molecules). In this study, we develop efficient and scalable approaches for fitting GP models as well as fast convolution kernels which scale linearly with graph or sequence size. We implement these improvements by building an open-source Python library called xGPR. We compare the performance of xGPR with the reported performance of various deep learning models on 20 benchmarks, including small molecule, protein sequence and tabular data. We show that xGRP achieves highly competitive performance with much shorter training time. Furthermore, we also develop new kernels for sequence and graph data and show that xGPR generally outperforms convolutional neural networks on predicting key properties of proteins and small molecules. Importantly, xGPR provides uncertainty information not available from typical deep learning models. Additionally, xGPR provides a representation of the input data that can be used for clustering and data visualization. These results demonstrate that xGPR provides a powerful and generic tool that can be broadly useful in protein engineering and drug discovery.

arxiv情報

著者 Jonathan Parkinson,Wei Wang
発行日 2023-06-23 17:06:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, q-bio.QM パーマリンク