On minimizers and convolutional filters: theoretical connections and applications to genome analysis

要約

ミニマイザーと畳み込みニューラル ネットワーク (CNN) は 2 つの非常に異なる一般的な技術であり、どちらもカテゴリカルな生物学的配列を分析するために使用されています。
額面どおりに見ると、これらの手法はまったく異なっているように見えます。
ミニマイザーは、ローリング ウィンドウで min-wise ハッシュを使用して、ウィンドウごとに 1 つの重要な k-mer 特徴を抽出します。
CNN は、プーリング操作と組み合わせたランダムに初期化された広範な畳み込みフィルターから始まり、次に複数の追加のニューラル層でフィルター自体とフィルターをシーケンスの分類に使用する方法の両方を学習します。
ここで、私たちの主な結果は、カテゴリカル アルファベット上のシーケンスについて、max-pooling を使用した畳み込みフィルターのランダム ガウス初期化が、選択された k-mer が (ハミングにおいて)
距離) 配列内の k-mer からは遠いですが、他のミニマイザーには近いです。
実証実験では、シミュレーションと実際の人間のテロメアの両方で、この特性が繰り返し領域の密度の減少として現れることがわかりました。
さらに、SARS-CoV-2 ゲノムからの合成ショートリードを 3D ユークリッド空間に埋め込む CNN をゼロからトレーニングし、リード起点の線形配列距離を局所的に再現します。これは、深層学習アセンブラーの構築に向けたささやかな一歩ですが、
現時点では遅すぎて実用的ではありません。
全体として、この原稿は、カテゴリカル シーケンス分析における CNN の有効性について部分的に説明します。

要約(オリジナル)

Minimizers and convolutional neural networks (CNNs) are two quite distinct popular techniques that have both been employed to analyze categorical biological sequences. At face value, the methods seem entirely dissimilar. Minimizers use min-wise hashing on a rolling window to extract a single important k-mer feature per window. CNNs start with a wide array of randomly initialized convolutional filters, paired with a pooling operation, and then multiple additional neural layers to learn both the filters themselves and how they can be used to classify the sequence. Here, our main result is a careful mathematical analysis of hash function properties showing that for sequences over a categorical alphabet, random Gaussian initialization of convolutional filters with max-pooling is equivalent to choosing a minimizer ordering such that selected k-mers are (in Hamming distance) far from the k-mers within the sequence but close to other minimizers. In empirical experiments, we find that this property manifests as decreased density in repetitive regions, both in simulation and on real human telomeres. We additionally train from scratch a CNN embedding of synthetic short-reads from the SARS-CoV-2 genome into 3D Euclidean space that locally recapitulates the linear sequence distance of the read origins, a modest step towards building a deep learning assembler, though it is at present too slow to be practical. In total, this manuscript provides a partial explanation for the effectiveness of CNNs in categorical sequence analysis.

arxiv情報

著者 Yun William Yu
発行日 2024-01-26 16:55:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, q-bio.GN パーマリンク