On minimizers and convolutional filters: theoretical connections and applications to genome analysis

要約

最小化器と畳み込みニューラルネットワーク(CNN)は、カテゴリー化された生物学的配列を解析するために採用されてきた、全く異なる2つの一般的な手法である。一見したところ、この2つの手法は全く似ていない。ミニマイザーは、ウィンドウごとに重要なk-mer特徴を1つだけ抽出するために、ローリングウィンドウで最小単位のハッシュを使う。CNNは、ランダムに初期化された畳み込みフィルタの幅広い配列と、プーリング演算との組み合わせから始まり、その後、フィルタそのものと、それらがどのように配列の分類に使われるかを学習するために、複数の神経層を追加する。 ここでは、ハッシュ関数の特性を注意深く数学的に解析することで、分類可能なアルファベット上のシーケンスに対して、畳み込みフィルタのランダムなガウス初期化と最大プーリングは、選択されたk-merがシーケンス内のk-merから(ハミング距離で)離れているが、他の最小化子には近いような最小化子の順序を選択することと等価であることを示す。実証実験では、この性質が、シミュレーションでも実際のヒトテロメアでも、繰り返し領域の密度の減少として現れることがわかった。さらに、SARS-CoV-2ゲノムの合成ショートリードの3次元ユークリッド空間へのCNN埋め込みをゼロから訓練し、リード起点の線形配列距離を局所的に再現する。全体として、この原稿はカテゴリー配列解析におけるCNNの有効性を部分的に説明するものである。

要約(オリジナル)

Minimizers and convolutional neural networks (CNNs) are two quite distinct popular techniques that have both been employed to analyze categorical biological sequences. At face value, the methods seem entirely dissimilar. Minimizers use min-wise hashing on a rolling window to extract a single important k-mer feature per window. CNNs start with a wide array of randomly initialized convolutional filters, paired with a pooling operation, and then multiple additional neural layers to learn both the filters themselves and how they can be used to classify the sequence. Here, our main result is a careful mathematical analysis of hash function properties showing that for sequences over a categorical alphabet, random Gaussian initialization of convolutional filters with max-pooling is equivalent to choosing a minimizer ordering such that selected k-mers are (in Hamming distance) far from the k-mers within the sequence but close to other minimizers. In empirical experiments, we find that this property manifests as decreased density in repetitive regions, both in simulation and on real human telomeres. We additionally train from scratch a CNN embedding of synthetic short-reads from the SARS-CoV-2 genome into 3D Euclidean space that locally recapitulates the linear sequence distance of the read origins, a modest step towards building a deep learning assembler, though it is at present too slow to be practical. In total, this manuscript provides a partial explanation for the effectiveness of CNNs in categorical sequence analysis.

arxiv情報

著者 Yun William Yu
発行日 2023-11-03 17:56:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.LG, q-bio.GN パーマリンク