Multi-modal Differentiable Unsupervised Feature Selection

要約

マルチモーダルな高スループットの生物学的データは、大きな科学的機会と重要な計算上の課題を提示します。
マルチモーダル測定では、すべてのサンプルが 2 セット以上のセンサーによって同時に観察されます。
このような設定では、両方のモダリティで観測された多くの変数はしばしば迷惑であり、関心のある現象に関する情報を伝えません。
ここでは、マルチモーダルの教師なし機能選択フレームワークを提案します。結合された高次元測定値に基づいて有益な変数を識別します。
私たちの方法は、2 種類の潜在的な低次元構造に関連する特徴を識別するように設計されています。(i) 両方のモダリティで観察を支配する共有構造と、(ii) 1 つのモダリティのみに現れる微分構造です。
そのために、2 つのラプラシアン ベースのスコアリング演算子を提案します。
迷惑な機能をマスクし、グラフ ラプラシアンによってキャプチャされた構造の精度を高める微分可能なゲートをスコアに組み込みます。
新しいスキームのパフォーマンスは、単一細胞マルチオミクスへの拡張された生物学的アプリケーションを含む、合成および実際のデータセットを使用して示されています。

要約(オリジナル)

Multi-modal high throughput biological data presents a great scientific opportunity and a significant computational challenge. In multi-modal measurements, every sample is observed simultaneously by two or more sets of sensors. In such settings, many observed variables in both modalities are often nuisance and do not carry information about the phenomenon of interest. Here, we propose a multi-modal unsupervised feature selection framework: identifying informative variables based on coupled high-dimensional measurements. Our method is designed to identify features associated with two types of latent low-dimensional structures: (i) shared structures that govern the observations in both modalities and (ii) differential structures that appear in only one modality. To that end, we propose two Laplacian-based scoring operators. We incorporate the scores with differentiable gates that mask nuisance features and enhance the accuracy of the structure captured by the graph Laplacian. The performance of the new scheme is illustrated using synthetic and real datasets, including an extended biological application to single-cell multi-omics.

arxiv情報

著者 Junchen Yang,Ofir Lindenbaum,Yuval Kluger,Ariel Jaffe
発行日 2023-03-16 15:11:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク