From Artificially Real to Real: Leveraging Pseudo Data from Large Language Models for Low-Resource Molecule Discovery

要約

分子発見は多くの科学分野の基礎として機能し、新材料の開発や革新的な医薬品設計を促進します。
インシリコ分子発見の最近の発展は、分子構造を説明的な注釈で橋渡しするクロスモーダル技術の有望な結果を強調しています。
ただし、これらのクロスモーダル手法では、データ不足の問題が頻繁に発生し、パフォーマンスと応用が妨げられます。
この論文では、大規模言語モデル (LLM) によって生成された人工的に実データを利用することで、低リソースの課題に取り組みます。
まず、高品質の疑似データを構築するための検索ベースのプロンプト戦略を導入し、次にこの疑似データを効果的に活用する最適な方法を探索します。
実験によると、ドメイン適応に擬似データを使用すると、既存のすべての方法よりも優れたパフォーマンスを発揮すると同時に、必要なモデル規模が小さくなり、データ サイズが減り、トレーニング コストが低くなり、その効率性が強調されます。
さらに、私たちの方法は、疑似データの量が増加するにつれて持続的な改善を示しており、低リソースのクロスモーダル分子発見を進める上での疑似データの大きな可能性を明らかにしています。
コードとデータは https://github.com/SCIR-HI/ArtificiallyR2R で入手できます。

要約(オリジナル)

Molecule discovery serves as a cornerstone in numerous scientific domains, fueling the development of new materials and innovative drug designs. Recent developments of in-silico molecule discovery have highlighted the promising results of cross-modal techniques, which bridge molecular structures with their descriptive annotations. However, these cross-modal methods frequently encounter the issue of data scarcity, hampering their performance and application. In this paper, we address the low-resource challenge by utilizing artificially-real data generated by Large Language Models (LLMs). We first introduce a retrieval-based prompting strategy to construct high-quality pseudo data, then explore the optimal method to effectively leverage this pseudo data. Experiments show that using pseudo data for domain adaptation outperforms all existing methods, while also requiring a smaller model scale, reduced data size and lower training cost, highlighting its efficiency. Furthermore, our method shows a sustained improvement as the volume of pseudo data increases, revealing the great potential of pseudo data in advancing low-resource cross-modal molecule discovery. Our code and data are available at https://github.com/SCIR-HI/ArtificiallyR2R.

arxiv情報

著者 Yuhan Chen,Nuwa Xi,Yanrui Du,Haochun Wang,Chen Jianyu,Sendong Zhao,Bing Qin
発行日 2023-12-21 09:32:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク