Predicting Drug-Gene Relations via Analogy Tasks with Word Embeddings

要約

Natural Language Processing(NLP)は、広範囲のフィールドで利用され、テキスト内の単語は通常、埋め込みと呼ばれる機能ベクトルに変換されます。
BioConceptvecは、Skip-Gramなどのモデルを使用して約3,000万のPubMed要約で訓練された生物学に合わせた埋め込みの具体的な例です。
一般に、単語の埋め込みは、単純なベクトル算術を介して類推タスクを解くことが知られています。
たとえば、$ \ mathrm {\ textit {king}} – \ mathrm {\ textit {man}} + \ mathrm {\ textit {woman}} $は、$ \ mathrm {\ textit {Queen}}} $を予測します。
この研究では、BioConceptvec埋め込みと、PubMed要約で訓練された独自の埋め込みが、薬物遺伝子関係に関する情報を含み、類推を通じて特定の薬物からの標的遺伝子を予測できることを実証します。
また、生物学的経路を使用して薬物と遺伝子を分類するとパフォーマンスが向上することも示しています。
さらに、過去の既知の関係から派生したベクトルは、年ごとに分割されたデータセットの未知の将来の関係を予測できることを示しています。
ベクターの追加として類推タスクを実装するという単純さにもかかわらず、私たちのアプローチは、薬物遺伝子関係の予測におけるGPT-4などの大規模な言語モデルのパフォーマンスに匹敵するパフォーマンスを実証しました。

要約(オリジナル)

Natural language processing (NLP) is utilized in a wide range of fields, where words in text are typically transformed into feature vectors called embeddings. BioConceptVec is a specific example of embeddings tailored for biology, trained on approximately 30 million PubMed abstracts using models such as skip-gram. Generally, word embeddings are known to solve analogy tasks through simple vector arithmetic. For instance, $\mathrm{\textit{king}} – \mathrm{\textit{man}} + \mathrm{\textit{woman}}$ predicts $\mathrm{\textit{queen}}$. In this study, we demonstrate that BioConceptVec embeddings, along with our own embeddings trained on PubMed abstracts, contain information about drug-gene relations and can predict target genes from a given drug through analogy computations. We also show that categorizing drugs and genes using biological pathways improves performance. Furthermore, we illustrate that vectors derived from known relations in the past can predict unknown future relations in datasets divided by year. Despite the simplicity of implementing analogy tasks as vector additions, our approach demonstrated performance comparable to that of large language models such as GPT-4 in predicting drug-gene relations.

arxiv情報

著者 Hiroaki Yamagiwa,Ryoma Hashimoto,Kiwamu Arakane,Ken Murakami,Shou Soeda,Momose Oyama,Yihua Zhu,Mariko Okada,Hidetoshi Shimodaira
発行日 2025-04-08 17:50:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク