Generative Language Models on Nucleotide Sequences of Human Genes

要約

言語モデル、主にトランスフォーマーベースの言語モデルは、NLP において大きな成功を収めました。
より正確に言えば、NLU における BERT のような研究や、NLG における GPT-3 などの研究は非常に重要です。
DNA 配列は構造の点で自然言語に非常に近いため、DNA 関連のバイオインフォマティクス領域に関係する場合、DNABert のような識別モデルが存在します。
しかし、コインの生成的な側面は、私たちの知る限りほとんど解明されていません。
その結果、私たちは DNA 配列に対する GPT-3 のような自己回帰生成言語モデルの開発に焦点を当てました。
DNA 配列全体を扱うことは、十分な計算リソースがなければ困難であるため、DNA 全体ではなく、ヒト遺伝子のヌクレオチド配列、つまり特定の機能を持つ DNA のユニークな部分に焦点を当てて、より小規模な研究を実行することにしました。
この決定は、DNA と遺伝子の両方が、多くの情報を失ったり過度に単純化したりすることなく、4 つの異なるヌクレオチドからなる 1D 配列として見ることができるという事実により、問題の構造を大きく変えることはありませんでした。
まず第一に、私たちはほぼ完全に未解明の問題を体系的に調査し、RNN が最高のパフォーマンスを発揮する一方、N グラムのような単純な手法も有望であることを観察しました。
もう 1 つの有益な点は、自然言語とは異なり、私たちが理解できない言語で生成モデルを操作する方法を学んだことです。
複雑さなどの古典的な指標を超えて、実際のタスクを使用することがいかに重要であるかが観察されます。
さらに、これらのモデルのデータを大量に消費する性質が、4 つの異なるタイプのヌクレオチドに起因する最小語彙サイズの言語を選択することによって変更できるかどうかを確認することが検討されています。
これを見直した理由は、そのような言語を選択すると問題が簡単になる可能性があるためです。
ただし、この研究で観察されたのは、必要なデータ量にそれほど大きな変化は生じないということでした。

要約(オリジナル)

Language models, primarily transformer-based ones, obtained colossal success in NLP. To be more precise, studies like BERT in NLU and works such as GPT-3 for NLG are very crucial. DNA sequences are very close to natural language in terms of structure, so if the DNA-related bioinformatics domain is concerned, discriminative models, like DNABert, exist. Yet, the generative side of the coin is mainly unexplored to the best of our knowledge. Consequently, we focused on developing an autoregressive generative language model like GPT-3 for DNA sequences. Because working with whole DNA sequences is challenging without substantial computational resources, we decided to carry out our study on a smaller scale, focusing on nucleotide sequences of human genes, unique parts in DNA with specific functionalities, instead of the whole DNA. This decision did not change the problem structure a lot due to the fact that both DNA and genes can be seen as 1D sequences consisting of four different nucleotides without losing much information and making too much simplification. First of all, we systematically examined an almost entirely unexplored problem and observed that RNNs performed the best while simple techniques like N-grams were also promising. Another beneficial point was learning how to work with generative models on languages we do not understand, unlike natural language. How essential using real-life tasks beyond the classical metrics such as perplexity is observed. Furthermore, checking whether the data-hungry nature of these models can be changed through selecting a language with minimal vocabulary size, four owing to four different types of nucleotides, is examined. The reason for reviewing this was that choosing such a language might make the problem easier. However, what we observed in this study was it did not provide that much of a change in the amount of data needed.

arxiv情報

著者 Musa Nuri Ihtiyar,Arzucan Ozgur
発行日 2023-07-20 06:59:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG, q-bio.GN パーマリンク