Encoding Domain Knowledge in Multi-view Latent Variable Models: A Bayesian Approach with Structured Sparsity

要約

多くの実世界のシステムは、単一のソースからのデータだけでなく、複数のデータ ビューを介して記述されます。
たとえば、ゲノム医療では、さまざまな分子層からのデータによって患者を特徴付けることができます。
構造化されたスパース性を備えた潜在変数モデルは、データ ビュー内およびデータ ビュー間で変動を解きほぐすために一般的に使用されるツールです。
ただし、ドメインの専門家による各要素の直接の検査と解釈が必要なため、解釈可能性は扱いにくいものです。
ここでは、構造化されたスパース性をモデル化するための修正された馬蹄事前分布に基づく新しいマルチビュー潜在変数モデルである MuVI を提案します。
これにより、限られたノイズの多いドメイン知識の組み込みが容易になり、本質的に説明可能な方法でマルチビュー データの分析が可能になります。
私たちのモデルは、(i)再構成エラーと精度/再現率の点で、構造化されたスパース性をモデル化するための最先端のアプローチよりも優れていること、(ii)ノイズのあるドメインの専門知識を機能セットの形で堅牢に統合していること、(iii)
) 要因の識別可能性を促進し、(iv) がん患者の実世界のマルチビュー データセットにおける解釈可能で生物学的に意味のある変動軸を推測します。

要約(オリジナル)

Many real-world systems are described not only by data from a single source but via multiple data views. In genomic medicine, for instance, patients can be characterized by data from different molecular layers. Latent variable models with structured sparsity are a commonly used tool for disentangling variation within and across data views. However, their interpretability is cumbersome since it requires a direct inspection and interpretation of each factor from domain experts. Here, we propose MuVI, a novel multi-view latent variable model based on a modified horseshoe prior for modeling structured sparsity. This facilitates the incorporation of limited and noisy domain knowledge, thereby allowing for an analysis of multi-view data in an inherently explainable manner. We demonstrate that our model (i) outperforms state-of-the-art approaches for modeling structured sparsity in terms of the reconstruction error and the precision/recall, (ii) robustly integrates noisy domain expertise in the form of feature sets, (iii) promotes the identifiability of factors and (iv) infers interpretable and biologically meaningful axes of variation in a real-world multi-view dataset of cancer patients.

arxiv情報

著者 Arber Qoku,Florian Buettner
発行日 2023-03-15 14:06:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, stat.ML パーマリンク