Tx-LLM: A Large Language Model for Therapeutics

要約

治療薬の開発は、さまざまな基準を満たす必要があり、時間と費用がかかるプロセスであり、プロセスを迅速化できる AI モデルは非常に貴重です。
ただし、現在の AI アプローチの大部分は、特定のドメイン内に限定された、狭く定義された一連のタスクのみに対応しています。
このギャップを埋めるために、PaLM-2 から微調整されたジェネラリスト大規模言語モデル (LLM) である Tx-LLM を導入します。これは、多様な治療法に関する知識をエンコードします。
Tx-LLM は、創薬パイプラインのさまざまな段階にわたる 66 のタスクを対象とする 709 のデータセットのコレクションを使用してトレーニングされます。
Tx-LLM は、単一セットの重みを使用して、フリーテキストが挟まれたさまざまな化学的または生物学的エンティティ (小分子、タンパク質、核酸、細胞株、疾患) を同時に処理し、関連する幅広いプロパティを予測できるようにします。
66 タスク中 43 タスクで最先端 (SOTA) のパフォーマンスに匹敵し、22 タスクで SOTA を上回っています。その中でも、Tx-LLM は特に強力であり、分子を組み合わせたタスクでは平均でクラス最高のパフォーマンスを上回っています。
細胞株名や疾患名などのテキストを含む SMILES 表現。おそらく事前トレーニング中に学習したコンテキストによるものです。
私たちは、さまざまな種類の薬剤を使用したタスク(たとえば、小分子を含むタスクとタンパク質を含むタスク)間でのポジティブな伝達の証拠を観察し、モデルのサイズ、ドメインの微調整、およびプロンプト戦略がパフォーマンスに及ぼす影響を研究します。
私たちは、Tx-LLM が生化学的知識をコード化する LLM に向けた重要なステップであり、将来的には創薬開発パイプライン全体のエンドツーエンド ツールとして役割を果たす可能性があると考えています。

要約(オリジナル)

Developing therapeutics is a lengthy and expensive process that requires the satisfaction of many different criteria, and AI models capable of expediting the process would be invaluable. However, the majority of current AI approaches address only a narrowly defined set of tasks, often circumscribed within a particular domain. To bridge this gap, we introduce Tx-LLM, a generalist large language model (LLM) fine-tuned from PaLM-2 which encodes knowledge about diverse therapeutic modalities. Tx-LLM is trained using a collection of 709 datasets that target 66 tasks spanning various stages of the drug discovery pipeline. Using a single set of weights, Tx-LLM simultaneously processes a wide variety of chemical or biological entities(small molecules, proteins, nucleic acids, cell lines, diseases) interleaved with free-text, allowing it to predict a broad range of associated properties, achieving competitive with state-of-the-art (SOTA) performance on 43 out of 66 tasks and exceeding SOTA on 22. Among these, Tx-LLM is particularly powerful and exceeds best-in-class performance on average for tasks combining molecular SMILES representations with text such as cell line names or disease names, likely due to context learned during pretraining. We observe evidence of positive transfer between tasks with diverse drug types (e.g.,tasks involving small molecules and tasks involving proteins), and we study the impact of model size, domain finetuning, and prompting strategies on performance. We believe Tx-LLM represents an important step towards LLMs encoding biochemical knowledge and could have a future role as an end-to-end tool across the drug discovery development pipeline.

arxiv情報

著者 Juan Manuel Zambrano Chaves,Eric Wang,Tao Tu,Eeshit Dhaval Vaishnav,Byron Lee,S. Sara Mahdavi,Christopher Semturs,David Fleet,Vivek Natarajan,Shekoofeh Azizi
発行日 2024-06-10 14:33:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CE, cs.CL, cs.LG パーマリンク