GPT-MolBERTa: GPT Molecular Features Language Model for molecular property prediction

要約

Transformer アーキテクチャの出現と、テキスト データの強力な理解により、テキスト記述に基づいて分子特性を予測するという新たな地平が開かれました。
SMILES は最も一般的な表現形式ですが、堅牢性、豊富な情報、正規性に欠けており、一般化可能な表現になる有効性が制限されています。
ここでは、分子の詳細なテキスト記述を使用して分子の特性を予測する自己教師あり大規模言語モデル (LLM) である GPT-MolBERTa を紹介します。
ChatGPT を使用して 326,000 個の分子のテキストベースの説明が収集され、LLM が分子の表現を学習するようにトレーニングするために使用されました。
下流タスクのプロパティを予測するために、微調整段階で BERT モデルと RoBERTa モデルの両方が使用されました。
実験では、GPT-MolBERTa がさまざまな分子特性ベンチマークで良好なパフォーマンスを示し、回帰タスクでは最先端のパフォーマンスに近づいていることが示されています。
さらに、注意メカニズムのさらなる分析により、GPT-MolBERTa が入力テキスト データから重要な情報をピックアップできることが示され、モデルの解釈可能性が示されます。

要約(オリジナル)

With the emergence of Transformer architectures and their powerful understanding of textual data, a new horizon has opened up to predict the molecular properties based on text description. While SMILES are the most common form of representation, they are lacking robustness, rich information and canonicity, which limit their effectiveness in becoming generalizable representations. Here, we present GPT-MolBERTa, a self-supervised large language model (LLM) which uses detailed textual descriptions of molecules to predict their properties. A text based description of 326000 molecules were collected using ChatGPT and used to train LLM to learn the representation of molecules. To predict the properties for the downstream tasks, both BERT and RoBERTa models were used in the finetuning stage. Experiments show that GPT-MolBERTa performs well on various molecule property benchmarks, and approaching state of the art performance in regression tasks. Additionally, further analysis of the attention mechanisms show that GPT-MolBERTa is able to pick up important information from the input textual data, displaying the interpretability of the model.

arxiv情報

著者 Suryanarayanan Balaji,Rishikesh Magar,Yayati Jadhav,Amir Barati Farimani
発行日 2023-10-10 17:30:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, physics.chem-ph パーマリンク