Compositionally Equivariant Representation Learning

要約

深層学習モデルを効果的にトレーニングするには、多くの場合、十分な監視 (つまり、ラベル付きデータ) が必要です。
対照的に、人間は最小限のガイダンスで、MRI や CT スキャンなどの医療画像内の重要な解剖学的構造を識別する方法を迅速に学習できます。
この認識機能は、さまざまな医療施設からの新しい画像や、さまざまな環境での新しいタスクに簡単に一般化できます。
この迅速かつ一般化可能な学習能力は、人間の脳内の画像パターンの構成構造によるところが大きく、現在の医療モデルでは十分に表現されていません。
この論文では、医療画像セグメンテーションのためのより解釈可能かつ一般化可能な表現を学習する際の構成性の利用について研究します。
全体として、我々は、医用画像を生成するために使用される基礎となる生成因子が組成等分散特性を満たすことを提案する。ここで、各因子は組成的であり(例えば、人間の解剖学的構造における構造に対応する)、タスクに対しても等変である。
したがって、グラウンド トゥルース ファクターをよく近似する適切な表現は、組成的に等変でなければなりません。
学習可能な von-Mises-Fisher (vMF) カーネルを使用して構成表現をモデル化することで、さまざまな設計バイアスと学習バイアスを使用して、非教師あり、弱教師あり、半教師ありの設定の下で表現がより構成的に等変になるように強制できる方法を検討します。
広範な結果は、私たちの方法が半教師ありドメイン一般化医療画像セグメンテーションのタスクにおいていくつかの強力なベースラインにわたって最高のパフォーマンスを達成することを示しています。
コードは、承認されると https://github.com/vios-s で公開されます。

要約(オリジナル)

Deep learning models often need sufficient supervision (i.e. labelled data) in order to be trained effectively. By contrast, humans can swiftly learn to identify important anatomy in medical images like MRI and CT scans, with minimal guidance. This recognition capability easily generalises to new images from different medical facilities and to new tasks in different settings. This rapid and generalisable learning ability is largely due to the compositional structure of image patterns in the human brain, which are not well represented in current medical models. In this paper, we study the utilisation of compositionality in learning more interpretable and generalisable representations for medical image segmentation. Overall, we propose that the underlying generative factors that are used to generate the medical images satisfy compositional equivariance property, where each factor is compositional (e.g. corresponds to the structures in human anatomy) and also equivariant to the task. Hence, a good representation that approximates well the ground truth factor has to be compositionally equivariant. By modelling the compositional representations with learnable von-Mises-Fisher (vMF) kernels, we explore how different design and learning biases can be used to enforce the representations to be more compositionally equivariant under un-, weakly-, and semi-supervised settings. Extensive results show that our methods achieve the best performance over several strong baselines on the task of semi-supervised domain-generalised medical image segmentation. Code will be made publicly available upon acceptance at https://github.com/vios-s.

arxiv情報

著者 Xiao Liu,Pedro Sanchez,Spyridon Thermos,Alison Q. O’Neil,Sotirios A. Tsaftaris
発行日 2023-06-13 14:06:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク