TwinBooster: Synergising Large Language Models with Barlow Twins and Gradient Boosting for Enhanced Molecular Property Prediction

要約

創薬と開発の成功は、分子の活性と特性の正確な予測にかかっています。
インシリコでの分子特性予測は顕著な可能性を示していますが、その使用はこれまでのところ、大量のデータが利用可能なアッセイに限定されています。
この研究では、微調整された大規模言語モデルを使用して、新しい自己教師あり学習アプローチを使用するシャム ニューラル ネットワークである Barlow Twins と組み合わせて、テキスト情報に基づく生物学的アッセイを統合します。
このアーキテクチャでは、アッセイ情報と分子フィンガープリントの両方を使用して、真の分子情報を抽出します。
TwinBooster は、最先端のゼロショット学習タスクを提供することで、目に見えないバイオアッセイや分子の特性の予測を可能にします。
注目すべきことに、当社の人工知能パイプラインは FS-Mol ベンチマークで優れたパフォーマンスを示しています。
この画期的な進歩は、通常データが不足している重要な特性予測タスクにディープラーニングを適用できることを示しています。
この方法は、創薬および開発における活性分子の早期同定を加速することにより、新規治療薬の同定を合理化するのに役立つ可能性があります。

要約(オリジナル)

The success of drug discovery and development relies on the precise prediction of molecular activities and properties. While in silico molecular property prediction has shown remarkable potential, its use has been limited so far to assays for which large amounts of data are available. In this study, we use a fine-tuned large language model to integrate biological assays based on their textual information, coupled with Barlow Twins, a Siamese neural network using a novel self-supervised learning approach. This architecture uses both assay information and molecular fingerprints to extract the true molecular information. TwinBooster enables the prediction of properties of unseen bioassays and molecules by providing state-of-the-art zero-shot learning tasks. Remarkably, our artificial intelligence pipeline shows excellent performance on the FS-Mol benchmark. This breakthrough demonstrates the application of deep learning to critical property prediction tasks where data is typically scarce. By accelerating the early identification of active molecules in drug discovery and development, this method has the potential to help streamline the identification of novel therapeutics.

arxiv情報

著者 Maximilian G. Schuh,Davide Boldini,Stephan A. Sieber
発行日 2024-01-09 10:36:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG, q-bio.BM パーマリンク