Automatic Annotation Augmentation Boosts Translation between Molecules and Natural Language


このペーパーでは、既存のデータセットを拡張してAIトレーニングを改善するために大規模な言語モデルを活用する言語ベースの自動注釈増強フレームワークであるLa $^3 $を紹介します。
拡張されたデータセットであるLachebi-20を作成することにより、La $^3 $の有効性を実証します。ここでは、確立されたデータセットから分子の注釈を体系的に書き換えます。
テキストベースの * de novo *分子の生成と分子キャプションに関する実験結果は、Lamolt5が最先端のモデルよりも優れていることを示しています。
特に、LA $^3 $を組み込むと、ベンチマークアーキテクチャよりも最大301%の改善が行われます。
さらに、 *画像 *、 *テキスト *、および *グラフ *タスクのLA $^3 $注目のアプリケーションの有効性を検証し、その汎用性と有用性を確認します。


Recent advancements in AI for biological research focus on integrating molecular data with natural language to accelerate drug discovery. However, the scarcity of high-quality annotations limits progress in this area. This paper introduces LA$^3$, a Language-based Automatic Annotation Augmentation framework that leverages large language models to augment existing datasets, thereby improving AI training. We demonstrate the effectiveness of LA$^3$ by creating an enhanced dataset, LaChEBI-20, where we systematically rewrite the annotations of molecules from an established dataset. These rewritten annotations preserve essential molecular information while providing more varied sentence structures and vocabulary. Using LaChEBI-20, we train LaMolT5 based on a benchmark architecture to learn the mapping between molecular representations and augmented annotations. Experimental results on text-based *de novo* molecule generation and molecule captioning demonstrate that LaMolT5 outperforms state-of-the-art models. Notably, incorporating LA$^3$ leads to improvements of up to 301% over the benchmark architecture. Furthermore, we validate the effectiveness of LA$^3$ notable applications in *image*, *text* and *graph* tasks, affirming its versatility and utility.


著者 Zhiqiang Zhong,Simon Sataa-Yu Larsen,Haoyu Guo,Tao Tang,Kuangyu Zhou,Davide Mottin
発行日 2025-02-10 16:29:21+00:00
カテゴリー: cs.AI, cs.LG パーマリンク