LipidBERT: A Lipid Language Model Pre-trained on METiS de novo Lipid Library

要約

この研究では、METiS の社内の de novo 脂質生成アルゴリズムと脂質仮想スクリーニング技術を通じて、1,000 万件の仮想脂質のデータベースを生成および維持します。
これらの仮想脂質は、事前トレーニング、脂質表現の学習、および下流タスクの知識伝達のためのコーパスとして機能し、最先端の LNP 特性予測パフォーマンスに到達します。
私たちは、マスク言語モデル (MLM) とさまざまな二次タスクで事前トレーニングされた BERT のようなモデルである LipidBERT を提案します。
さらに、下流のタスクで、LipidBERT と GPT のような脂質生成モデルである PhatGPT によって生成された埋め込みのパフォーマンスを比較します。
提案されたバイリンガル LipidBERT モデルは 2 つの言語で動作します。1 つは社内のドライラボ脂質構造を使用したイオン化脂質の事前トレーニングの言語、もう 1 つは社内の LNP ウェットラボ データを使用した LNP 微調整の言語です。
この二重の機能により、LipidBERT は、新しいバージョンの METiS de novo 脂質ライブラリーや、さらに重要なことに、臓器標的 LNP の in vivo テストの候補など、将来のスクリーニング タスクのための主要な AI ベースのフィルターとして位置付けられます。
私たちの知る限り、これは、仮想脂質に関する事前トレーニング済み言語モデルの機能と、ウェブラボ データを使用した下流タスクにおけるその有効性の実証に成功した最初の例です。
この研究は、METiS の社内の de novo 脂質ライブラリーの賢明な利用と、ドライ/ウェット ラボ統合の力を示しています。

要約(オリジナル)

In this study, we generate and maintain a database of 10 million virtual lipids through METiS’s in-house de novo lipid generation algorithms and lipid virtual screening techniques. These virtual lipids serve as a corpus for pre-training, lipid representation learning, and downstream task knowledge transfer, culminating in state-of-the-art LNP property prediction performance. We propose LipidBERT, a BERT-like model pre-trained with the Masked Language Model (MLM) and various secondary tasks. Additionally, we compare the performance of embeddings generated by LipidBERT and PhatGPT, our GPT-like lipid generation model, on downstream tasks. The proposed bilingual LipidBERT model operates in two languages: the language of ionizable lipid pre-training, using in-house dry-lab lipid structures, and the language of LNP fine-tuning, utilizing in-house LNP wet-lab data. This dual capability positions LipidBERT as a key AI-based filter for future screening tasks, including new versions of METiS de novo lipid libraries and, more importantly, candidates for in vivo testing for orgran-targeting LNPs. To the best of our knowledge, this is the first successful demonstration of the capability of a pre-trained language model on virtual lipids and its effectiveness in downstream tasks using web-lab data. This work showcases the clever utilization of METiS’s in-house de novo lipid library as well as the power of dry-wet lab integration.

arxiv情報

著者 Tianhao Yu,Cai Yao,Zhuorui Sun,Feng Shi,Lin Zhang,Kangjie Lyu,Xuan Bai,Andong Liu,Xicheng Zhang,Jiali Zou,Wenshou Wang,Chris Lai,Kai Wang
発行日 2024-08-12 13:44:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, physics.chem-ph, q-bio.BM パーマリンク