Enhancing selectivity using Wasserstein distance based reweighing

要約

2つのラベル付きデータセット$ \ mathcal {s} $および$ \ mathcal {t} $を与えられた場合、シンプルで効率的な貪欲なアルゴリズムを設計して、トレーニングに起因するニューラルネットワークの重みの制限分布を再計量するために、損失関数を再計量します。
$ \ mathcal {s} $は、$ \ mathcal {t} $でトレーニングすることで生じる制限分布に近づきます。
理論的な面では、入力データセットのメトリックエントロピーが境界が境界に縛られている場合、貪欲なアルゴリズムが最適な再計量に近い、つまり、ネットワークの重みの2つの不変分布が合計変動距離で明らかに近いことを証明します。
さらに、アルゴリズムはシンプルでスケーラブルであり、アルゴリズムの効率についても境界を立てています。
やる気のある用途として、ニューラルネットをトレーニングして、MNK2(非常に類似したタンパク質)の非バインダーであるMNK2(細胞シグナル伝達の原因となるMAPキナーゼ)に小分子バインダーを認識します。
私たちの例データセットでは、エナミンカタログから最も選択的であると予測された43の異なる小分子のうち、2つの小分子が選択的であることを実験的に検証しました。
$ \ mu $ m -5 \%成功率。

要約(オリジナル)

Given two labeled data-sets $\mathcal{S}$ and $\mathcal{T}$, we design a simple and efficient greedy algorithm to reweigh the loss function such that the limiting distribution of the neural network weights that result from training on $\mathcal{S}$ approaches the limiting distribution that would have resulted by training on $\mathcal{T}$. On the theoretical side, we prove that when the metric entropy of the input datasets is bounded, our greedy algorithm outputs a close to optimal reweighing, i.e., the two invariant distributions of network weights will be provably close in total variation distance. Moreover, the algorithm is simple and scalable, and we prove bounds on the efficiency of the algorithm as well. As a motivating application, we train a neural net to recognize small molecule binders to MNK2 (a MAP Kinase, responsible for cell signaling) which are non-binders to MNK1 (a highly similar protein). In our example dataset, of the 43 distinct small molecules predicted to be most selective from the enamine catalog, 2 small molecules were experimentally verified to be selective, i.e., they reduced the enzyme activity of MNK2 below 50\% but not MNK1, at 10$\mu$M — a 5\% success rate.

arxiv情報

著者 Pratik Worah
発行日 2025-02-25 18:28:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, q-bio.QM, stat.ML パーマリンク