Rethinking the BERT-like Pretraining for DNA Sequences

要約

NLP における大規模な事前トレーニングの成功により、NLP を生命科学の領域に適用する傾向が高まっています。
特に、DNA 配列に基づく事前トレーニング方法は、遺伝子に関する一般的な情報を取得できる可能性があるため、ますます注目を集めています。
しかし、DNA 配列の既存の事前トレーニング方法は、NLP からの BERT 事前トレーニングの直接採用に大きく依存しており、包括的な理解と特別に調整されたアプローチが不足しています。
この研究ギャップに対処するために、私たちはまず一連の探索的実験を実施し、いくつかの洞察力に富んだ観察を得ました。 1) 下流タスクの微調整段階で、K-mer 非重複トークン化の代わりに K-mer 重複トークン化を使用すると、両方の
2) 事前トレーニング プロセス中、K-mer の重複トークン化を使用すると、明確な K-mer 埋め込みが迅速に生成され、損失が非常に低いレベルに低減されます。一方、K-mer 以外の重みは使用されます。
– トークン化が重複すると、埋め込みの明瞭さが減り、損失が継続的に減少します。
3) 重複したトークン化を使用すると、事前トレーニングされたモデルの中間層での自己注意が特定のトークンに過度に集中する傾向が生じ、これらの層が適切に最適化されていないことを反映します。
要約すると、重複したトークン化は下流タスクの微調整に有益ですが、高速収束による不適切な事前トレーニングにつながります。
事前トレーニングの可能性を解き放つために、RandomMask と呼ばれる新しいアプローチを導入します。これは、マスク境界を継続的に拡張することで BERT のような事前トレーニングのタスクの難易度を徐々に高め、モデルにより多くの知識を学習させることになります。
RandomMask はシンプルですが効果的で、7 つのダウンストリーム タスクにわたる 28 のデータセットのうち 26 のデータセットにわたって最高レベルのパフォーマンスを達成します。

要約(オリジナル)

With the success of large-scale pretraining in NLP, there is an increasing trend of applying it to the domain of life sciences. In particular, pretraining methods based on DNA sequences have garnered growing attention due to their potential to capture generic information about genes. However, existing pretraining methods for DNA sequences largely rely on direct adoptions of BERT pretraining from NLP, lacking a comprehensive understanding and a specifically tailored approach. To address this research gap, we first conducted a series of exploratory experiments and gained several insightful observations: 1) In the fine-tuning phase of downstream tasks, when using K-mer overlapping tokenization instead of K-mer non-overlapping tokenization, both overlapping and non-overlapping pretraining weights show consistent performance improvement.2) During the pre-training process, using K-mer overlapping tokenization quickly produces clear K-mer embeddings and reduces the loss to a very low level, while using K-mer non-overlapping tokenization results in less distinct embeddings and continuously decreases the loss. 3) Using overlapping tokenization causes the self-attention in the intermediate layers of pre-trained models to tend to overly focus on certain tokens, reflecting that these layers are not adequately optimized. In summary, overlapping tokenization can benefit the fine-tuning of downstream tasks but leads to inadequate pretraining with fast convergence. To unleash the pretraining potential, we introduce a novel approach called RandomMask, which gradually increases the task difficulty of BERT-like pretraining by continuously expanding its mask boundary, forcing the model to learn more knowledge. RandomMask is simple but effective, achieving top-tier performance across 26 datasets of 28 datasets spanning 7 downstream tasks.

arxiv情報

著者 Chaoqi Liang,Weiqiang Bai,Lifeng Qiao,Yuchen Ren,Jianle Sun,Peng Ye,Hongliang Yan,Xinzhu Ma,Wangmeng Zuo,Wanli Ouyang
発行日 2023-10-11 16:40:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク