Automatic Annotation Augmentation Boosts Translation between Molecules and Natural Language

要約

生物学的研究のためのAIの最近の進歩は、分子データを自然言語と統合して創薬を加速することに焦点を当てています。
ただし、高品質の注釈が不足すると、この分野の進行が制限されます。
このペーパーでは、既存のデータセットを拡張してAIトレーニングを改善するために大規模な言語モデルを活用する言語ベースの自動注釈増強フレームワークであるLa $^3 $を紹介します。
拡張されたデータセットであるLachebi-20を作成することにより、La $^3 $の有効性を実証します。ここでは、確立されたデータセットから分子の注釈を体系的に書き換えます。
これらの書き直された注釈は、より多様な文構造と語彙を提供しながら、必須の分子情報を保持します。
Lachebi-20を使用して、ベンチマークアーキテクチャに基づいてLamolt5をト​​レーニングして、分子表現と拡張注釈の間のマッピングを学習します。
テキストベースの * de novo *分子の生成と分子キャプションに関する実験結果は、Lamolt5が最先端のモデルよりも優れていることを示しています。
特に、LA $^3 $を組み込むと、ベンチマークアーキテクチャよりも最大301%の改善が行われます。
さらに、 *画像 *、 *テキスト *、および *グラフ *タスクのLA $^3 $注目のアプリケーションの有効性を検証し、その汎用性と有用性を確認します。

要約(オリジナル)

Recent advancements in AI for biological research focus on integrating molecular data with natural language to accelerate drug discovery. However, the scarcity of high-quality annotations limits progress in this area. This paper introduces LA$^3$, a Language-based Automatic Annotation Augmentation framework that leverages large language models to augment existing datasets, thereby improving AI training. We demonstrate the effectiveness of LA$^3$ by creating an enhanced dataset, LaChEBI-20, where we systematically rewrite the annotations of molecules from an established dataset. These rewritten annotations preserve essential molecular information while providing more varied sentence structures and vocabulary. Using LaChEBI-20, we train LaMolT5 based on a benchmark architecture to learn the mapping between molecular representations and augmented annotations. Experimental results on text-based *de novo* molecule generation and molecule captioning demonstrate that LaMolT5 outperforms state-of-the-art models. Notably, incorporating LA$^3$ leads to improvements of up to 301% over the benchmark architecture. Furthermore, we validate the effectiveness of LA$^3$ notable applications in *image*, *text* and *graph* tasks, affirming its versatility and utility.

arxiv情報

著者 Zhiqiang Zhong,Simon Sataa-Yu Larsen,Haoyu Guo,Tao Tang,Kuangyu Zhou,Davide Mottin
発行日 2025-02-10 16:29:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク