FATE: Feature-Agnostic Transformer-based Encoder for learning generalized embedding spaces in flow cytometry data

要約

過去数年間で、モデル・アーキテクチャや学習ストラテジーは、様々なデータ・モダリティに対してより汎用的で柔軟なものとなってきているが、入力特徴の量や配置が固定的であるという仮定に永続的な限界がある。この限界は、データ取得時に取得される属性が異なるサンプル間で異なるシナリオにおいて特に関連する。本研究では、入力空間を潜在的な特徴セットの交点に制約したり、それらの和に拡張したりする必要なく、様々な特徴を持つデータを効果的に活用することを目指す。様々な特徴セットを持つデータサンプル間の特徴間の関係を捉える一般的な埋め込み空間を学習することで、特徴モダリティを揃える必要なくデータを直接処理できる新しいアーキテクチャを提案する。これは、特徴エンコーダ層で補強された集合変換器アーキテクチャによって達成され、それにより、異種特徴空間由来のデータから共有潜在特徴空間の学習を可能にする。このモデルの利点は、フローサイトメトリーデータにおける急性骨髄性白血病の癌細胞の自動検出において実証された。我々の提案するアーキテクチャは、不一致な特徴空間間でシームレスに動作する能力を持っており、疾患の低い有病率に起因するデータの希少性であるこの状況において、特に適切である。コードは研究目的でhttps://github.com/lisaweijler/FATE。

要約(オリジナル)

While model architectures and training strategies have become more generic and flexible with respect to different data modalities over the past years, a persistent limitation lies in the assumption of fixed quantities and arrangements of input features. This limitation becomes particularly relevant in scenarios where the attributes captured during data acquisition vary across different samples. In this work, we aim at effectively leveraging data with varying features, without the need to constrain the input space to the intersection of potential feature sets or to expand it to their union. We propose a novel architecture that can directly process data without the necessity of aligned feature modalities by learning a general embedding space that captures the relationship between features across data samples with varying sets of features. This is achieved via a set-transformer architecture augmented by feature-encoder layers, thereby enabling the learning of a shared latent feature space from data originating from heterogeneous feature spaces. The advantages of the model are demonstrated for automatic cancer cell detection in acute myeloid leukemia in flow cytometry data, where the features measured during acquisition often vary between samples. Our proposed architecture’s capacity to operate seamlessly across incongruent feature spaces is particularly relevant in this context, where data scarcity arises from the low prevalence of the disease. The code is available for research purposes at https://github.com/lisaweijler/FATE.

arxiv情報

著者 Lisa Weijler,Florian Kowarsch,Michael Reiter,Pedro Hermosilla,Margarita Maurer-Granofszky,Michael Dworzak
発行日 2023-11-06 18:06:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV, eess.IV パーマリンク