InstructBio: A Large-scale Semi-supervised Learning Paradigm for Biochemical Problems

要約

タイトル:「InstructBio:生化学的問題のための大規模半教師あり学習パラダイム」

要約:

– 生物学における人工知能の分野において、実際の問題に対してラベル付けられたデータが限られているため、課題のための強力なタスク非依存モデルを大規模なラベルなしのコーパスで事前学習することが主流である。
– この研究では、半教師あり学習アルゴリズムInstructMolを提案し、ラベルがないデータをより有効に活用する。
– インストラクターモデルを導入し、擬似ラベルの信頼性の測定値として信頼度比を提供する。これらの信頼度スコアは、ターゲットモデルが異なるデータポイントに特段の注意を払い、ラベル付けされたデータに対する過度の依存と誤った擬似注釈の否定的な影響を避けるように指導する。
– 化合物の特性予測だけでなく、活性断崖推定においても、InstructBioが分子モデルの汎化能力を大幅に向上させ、提案された方法の優位性を示している。
– さらに、InstructBioは、最先端の事前学習方法を搭載し、大規模かつタスク固有の擬似ラベル付き分子データセットを構築するために使用できることが示されており、予測誤差を減らし、トレーニングプロセスを短縮することができることが示されている。
– 半教師あり学習は、データの限られた制約を克服するための有望なツールであり、分子表現学習を進める際に貢献することが示された。

要約(オリジナル)

In the field of artificial intelligence for science, it is consistently an essential challenge to face a limited amount of labeled data for real-world problems. The prevailing approach is to pretrain a powerful task-agnostic model on a large unlabeled corpus but may struggle to transfer knowledge to downstream tasks. In this study, we propose InstructMol, a semi-supervised learning algorithm, to take better advantage of unlabeled examples. It introduces an instructor model to provide the confidence ratios as the measurement of pseudo-labels’ reliability. These confidence scores then guide the target model to pay distinct attention to different data points, avoiding the over-reliance on labeled data and the negative influence of incorrect pseudo-annotations. Comprehensive experiments show that InstructBio substantially improves the generalization ability of molecular models, in not only molecular property predictions but also activity cliff estimations, demonstrating the superiority of the proposed method. Furthermore, our evidence indicates that InstructBio can be equipped with cutting-edge pretraining methods and used to establish large-scale and task-specific pseudo-labeled molecular datasets, which reduces the predictive errors and shortens the training process. Our work provides strong evidence that semi-supervised learning can be a promising tool to overcome the data scarcity limitation and advance molecular representation learning.

arxiv情報

著者 Fang Wu,Huiling Qin,Siyuan Li,Stan Z. Li,Xianyuan Zhan,Jinbo Xu
発行日 2023-04-14 11:23:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.AI, cs.CE, cs.LG パーマリンク