要約
科学文献コーパスで事前トレーニングされた言語モデルは、ダウンストリーム アプリケーションに高品質の特徴表現を提供することで、科学的発見を大幅に進歩させました。
ただし、これらの機能は解釈できないことが多いため、ドメインの専門家に限られた洞察を明らかにする可能性があります。
言語モデルから機能を取得する代わりに、BLIAM を提案します。これは、文献ベースのデータ合成アプローチであり、下流のアプリケーションに対して解釈可能でモデルに依存しないトレーニング データ ポイントを直接生成します。
BLIAM の重要なアイデアは、既存のトレーニング データを使用してプロンプトを作成し、これらのプロンプトを使用して新しいデータ ポイントを合成することです。
新しいデータ ポイントがより有益なプロンプトを定義し、新しいプロンプトがより正確なデータ ポイントを合成するため、BLIAM はこれらの 2 つの手順を繰り返し実行します。
特に、下流アプリケーションのテスト データ ポイントのラベルが言語モデル コーパスで既に言及されている可能性があるため、文献ベースのデータ拡張によってデータ漏洩が発生する可能性があります。
このような漏れを防ぐために、生物医学言語モデルのトレーニング後に公開された大規模な薬物組み合わせ発見データセットである GDSC-combo を紹介します。
この厳密なデータ分割設定では、BLIAM が拡張されていないアプローチや手動プロンプトよりも大幅に優れていることがわかりました。
BLIAM はさらに、生物医学実験でさえ測定されなかった新薬や細胞株のデータ ポイントを合成するために使用できます。
有望な予測性能に加えて、BLIAM によって合成されたデータ ポイントは解釈可能であり、モデルにとらわれず、in vitro 実験の in silico 増強を可能にします。
要約(オリジナル)
Language models pre-trained on scientific literature corpora have substantially advanced scientific discovery by offering high-quality feature representations for downstream applications. However, these features are often not interpretable, and thus can reveal limited insights to domain experts. Instead of obtaining features from language models, we propose BLIAM, a literature-based data synthesis approach to directly generate training data points that are interpretable and model-agnostic to downstream applications. The key idea of BLIAM is to create prompts using existing training data and then use these prompts to synthesize new data points. BLIAM performs these two steps iteratively as new data points will define more informative prompts and new prompts will in turn synthesize more accurate data points. Notably, literature-based data augmentation might introduce data leakage since labels of test data points in downstream applications might have already been mentioned in the language model corpus. To prevent such leakage, we introduce GDSC-combo, a large-scale drug combination discovery dataset that was published after the biomedical language model was trained. We found that BLIAM substantially outperforms a non-augmented approach and manual prompting in this rigorous data split setting. BLIAM can be further used to synthesize data points for novel drugs and cell lines that were not even measured in biomedical experiments. In addition to the promising prediction performance, the data points synthesized by BLIAM are interpretable and model-agnostic, enabling in silico augmentation for in vitro experiments.
arxiv情報
著者 | Cai Yang,Addie Woicik,Hoifung Poon,Sheng Wang |
発行日 | 2023-02-16 05:26:25+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google