DeepProphet2 — A Deep Learning Gene Recommendation Engine

要約

最近の機械学習の進歩により、生命科学の問題に取り組むための新しい強力なツールが作成されました。
この論文の目的は、人工知能 (AI) によって実行される遺伝子推奨の潜在的な利点について説明することです。
実際、遺伝子レコメンデーション エンジンはこの問題を解決しようとします。ユーザーが遺伝子のセットに興味がある場合、他のどの遺伝子が開始セットに関連している可能性が高く、調査する必要がありますか?
このタスクは、https://www.generecommender.com?utm_source=DeepProphet2_paper&utm_medium=pdf から世界中の研究者が自由に利用できるカスタム ディープ ラーニング レコメンデーション エンジン DeepProphet2 (DP2) で解決されました。
以降では、アルゴリズムの背後にある洞察とその実用的なアプリケーションについて説明します。
遺伝子推奨の問題は、遺伝子をメトリック空間にマッピングすることで対処できます。距離を定義して、それらの間の実際の意味的距離を表すことができます。
この目的を達成するために、トランスフォーマー ベースのモデルは、厳選された自由に利用できる紙のコーパスである PubMed でトレーニングされています。
この論文では、最適なバイアスと分散のトレードオフを得るために採用された複数の最適化手順について説明し、埋め込みサイズとネットワークの深さに焦点を当てています。
これに関連して、疾患および経路に関与する遺伝子のセットを発見するモデルの能力は、交差検証によって評価されました。
この手順は単純な仮定に基づいていました。ネットワークには経路や疾患に関する直接的な知識はありませんでしたが、遺伝子の類似性とそれらの間の相互作用は学習されていました。
さらに、ニューラルネットワークが遺伝子を表す空間をさらに調査するために、埋め込みの次元を減らし、結果を人間が理解できる空間に投影しました。
結論として、一連のユース ケースは、実際の設定におけるアルゴリズムの潜在的なアプリケーションを示しています。

要約(オリジナル)

New powerful tools for tackling life science problems have been created by recent advances in machine learning. The purpose of the paper is to discuss the potential advantages of gene recommendation performed by artificial intelligence (AI). Indeed, gene recommendation engines try to solve this problem: if the user is interested in a set of genes, which other genes are likely to be related to the starting set and should be investigated? This task was solved with a custom deep learning recommendation engine, DeepProphet2 (DP2), which is freely available to researchers worldwide via https://www.generecommender.com?utm_source=DeepProphet2_paper&utm_medium=pdf. Hereafter, insights behind the algorithm and its practical applications are illustrated. The gene recommendation problem can be addressed by mapping the genes to a metric space where a distance can be defined to represent the real semantic distance between them. To achieve this objective a transformer-based model has been trained on a well-curated freely available paper corpus, PubMed. The paper describes multiple optimization procedures that were employed to obtain the best bias-variance trade-off, focusing on embedding size and network depth. In this context, the model’s ability to discover sets of genes implicated in diseases and pathways was assessed through cross-validation. A simple assumption guided the procedure: the network had no direct knowledge of pathways and diseases but learned genes’ similarities and the interactions among them. Moreover, to further investigate the space where the neural network represents genes, the dimensionality of the embedding was reduced, and the results were projected onto a human-comprehensible space. In conclusion, a set of use cases illustrates the algorithm’s potential applications in a real word setting.

arxiv情報

著者 Daniele Brambilla,Davide Maria Giacomini,Luca Muscarnera,Andrea Mazzoleni
発行日 2023-03-22 11:15:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.IR, cs.LG, q-bio.QM パーマリンク