ISImed: A Framework for Self-Supervised Learning using Intrinsic Spatial Information in Medical Images

要約

この論文では、空間情報を使用して、自己教師あり学習 (SSL) を使用して医療画像内の解釈可能な表現を学習できることを実証します。
私たちが提案した手法 ISImed は、医療画像が従来のデータ ビジョン ベンチマークと比較して、異なる画像間での変動がはるかに小さいという観察に基づいています。
複数の画像にわたる人体の構造の類似性を利用することで、物理的領域での位置を捕捉できる潜在的な表現を作成する自己監視型の目標を確立します。
より具体的には、私たちの方法には、画像クロップをサンプリングし、これらのクロップのすべての可能な組み合わせの学習された表現ベクトルをそれらの間の真の距離と比較する距離行列を作成することが含まれます。
直感的には、学習された潜在空間は、特定の画像クロップの位置エンコーディングであると考えられます。
私たちは、これらの位置エンコーディングを学習することで、包括的な画像表現を生成する必要があると仮説を立てます。
この仮説を検証し、手法を評価するために、学習した表現を、公的に利用可能な 2 つの医療画像データセットに対する 2 つの最先端の SSL ベンチマーク手法と比較します。
私たちの方法は、データの基礎となる構造を捕捉する表現を効率的に学習でき、下流の分類タスクに転送するために使用できることを示します。

要約(オリジナル)

This paper demonstrates that spatial information can be used to learn interpretable representations in medical images using Self-Supervised Learning (SSL). Our proposed method, ISImed, is based on the observation that medical images exhibit a much lower variability among different images compared to classic data vision benchmarks. By leveraging this resemblance of human body structures across multiple images, we establish a self-supervised objective that creates a latent representation capable of capturing its location in the physical realm. More specifically, our method involves sampling image crops and creating a distance matrix that compares the learned representation vectors of all possible combinations of these crops to the true distance between them. The intuition is, that the learned latent space is a positional encoding for a given image crop. We hypothesize, that by learning these positional encodings, comprehensive image representations have to be generated. To test this hypothesis and evaluate our method, we compare our learned representation with two state-of-the-art SSL benchmarking methods on two publicly available medical imaging datasets. We show that our method can efficiently learn representations that capture the underlying structure of the data and can be used to transfer to a downstream classification task.

arxiv情報

著者 Nabil Jabareen,Dongsheng Yuan,Sören Lukassen
発行日 2024-10-22 12:21:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク