Incorporating Prior Knowledge in Deep Learning Models via Pathway Activity Autoencoders

要約

動機: ハイスループットの分子プロファイリングアッセイ (トランスクリプトミクスなど) のコンピューター解析が進歩しているにもかかわらず、単純で解釈可能な方法と、複雑ではあるが解釈可能性の程度が低い方法との間には二分法が存在します。
さらに、既知の経路カスケードなど、生物学的に関連する用語で解釈可能性を翻訳しようとする方法はほとんどありません。
シグナル伝達イベントまたは代謝変換を反映する生物学的経路は、新規の生物学的結果が予測および検証されていない限り、既存のアルゴリズムの小さな改良または変更は一般に適切ではありません。
どの経路が疾患に関係しているかを判断し、そのような経路データを事前知識として組み込むことで、疾患の診断、治療、予防のための予測モデリングや個別化された戦略が強化される可能性があります。
結果: 我々は、がんにおける RNA-seq データに対して、新しい事前知識ベースのディープ自動エンコーディング フレームワーク PAAE と、それに付随する生成バリアント PAVAE を提案します。
さまざまな学習モデル間の包括的な比較を通じて、アクセスできる機能のセットが少ないにもかかわらず、PAAE および PAVAE モデルが一般的な方法論と比較してセット外の再構築結果が良好であることを示します。
さらに、分類タスクでモデルを同等のベースラインと比較し、完全な入力遺伝子セットにアクセスできるモデルよりも優れた結果が得られることを示します。
もう 1 つの結果は、バニラ変分フレームワークを使用すると、再構成出力と分類パフォーマンスの両方に悪影響を及ぼす可能性があることです。
最後に、私たちの研究は、トランスレーショナル医療の予後を改善することに加えて、モデルの包括的な解釈可能性分析を提供することによって直接貢献します。

要約(オリジナル)

Motivation: Despite advances in the computational analysis of high-throughput molecular profiling assays (e.g. transcriptomics), a dichotomy exists between methods that are simple and interpretable, and ones that are complex but with lower degree of interpretability. Furthermore, very few methods deal with trying to translate interpretability in biologically relevant terms, such as known pathway cascades. Biological pathways reflecting signalling events or metabolic conversions are Small improvements or modifications of existing algorithms will generally not be suitable, unless novel biological results have been predicted and verified. Determining which pathways are implicated in disease and incorporating such pathway data as prior knowledge may enhance predictive modelling and personalised strategies for diagnosis, treatment and prevention of disease. Results: We propose a novel prior-knowledge-based deep auto-encoding framework, PAAE, together with its accompanying generative variant, PAVAE, for RNA-seq data in cancer. Through comprehensive comparisons among various learning models, we show that, despite having access to a smaller set of features, our PAAE and PAVAE models achieve better out-of-set reconstruction results compared to common methodologies. Furthermore, we compare our model with equivalent baselines on a classification task and show that they achieve better results than models which have access to the full input gene set. Another result is that using vanilla variational frameworks might negatively impact both reconstruction outputs as well as classification performance. Finally, our work directly contributes by providing comprehensive interpretability analyses on our models on top of improving prognostication for translational medicine.

arxiv情報

著者 Pedro Henrique da Costa Avelar,Min Wu,Sophia Tsoka
発行日 2023-06-09 11:12:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.NE パーマリンク