要約
最近、MedSAM、SwinUNETR などの医用画像解析用の基盤モデルが多数リリースされ、複数のタスクに役立つことが証明されています。
ただし、実世界の医療データに固有の不均一性と不均一性を考慮すると、これらのモデルを特定の医療画像セグメンテーション タスクに直接適用すると、多くの場合、負のドメイン シフト効果が生じ、モデルのセグメンテーション機能が大幅に弱まる可能性があります。
この目的を達成するために、私たちは、それぞれが個別のタスクに特化した複数のエキスパート モデルの共同目標を処理する多用途の基礎モデルをトレーニングすることを目的とした適応的融合知識フレームワークを提案します。
具体的には、まずタスクごとにnnUNetベースのエキスパートモデルをトレーニングし、事前トレーニングされたSwinUNTERをターゲット基盤モデルとして再利用します。
次に、すべての困難なタスクの入力データが基礎モデルとエキスパート モデルでそれぞれエンコードされ、それらのバックボーン特徴が適応アマルガム層に共同で投影されます。
隠れ層内では、階層的アテンション メカニズムが、ターゲット モデルをすべての専門家の隠れ層特徴知識に適応的にマージするように設計されており、これにより、タスク間の違いから生じるドメイン シフトが大幅に削減されます。
最後に、ゴールドアマルガム化された特徴とプロンプト特徴がマスクデコーダに供給されて、セグメンテーション結果が得られます。
これらの困難なタスクで行われた広範な実験により、現実世界の医療画像セグメンテーションに対する当社の基礎モデルの有効性と適応性が実証されました。
要約(オリジナル)
Recently, many foundation models for medical image analysis such as MedSAM, SwinUNETR have been released and proven to be useful in multiple tasks. However, considering the inherent heterogeneity and inhomogeneity of real-world medical data, directly applying these models to specific medical image segmentation tasks often leads to negative domain shift effects, which can severely weaken the model’s segmentation capabilities. To this end, we propose an adaptive amalgamation knowledge framework that aims to train a versatile foundation model to handle the joint goals of multiple expert models, each specialized for a distinct task. Specifically, we first train an nnUNet-based expert model for each task, and reuse the pre-trained SwinUNTER as the target foundation model. Then, the input data for all challenging tasks are encoded in the foundation model and the expert models, respectively, and their backbone features are jointly projected into the adaptive amalgamation layer. Within the hidden layer, the hierarchical attention mechanisms are designed to achieve adaptive merging of the target model to the hidden layer feature knowledge of all experts, which significantly reduces the domain shift arising from the inter-task differences. Finally, the gold amalgamated features and the prompt features are fed into the mask decoder to obtain the segmentation results. Extensive experiments conducted in these challenging tasks demonstrate the effectiveness and adaptability of our foundation model for real-world medical image segmentation.
arxiv情報
著者 | Shangde Gao,Yichao Fu,Ke Liu,Hongxia Xu,Jian Wu |
発行日 | 2024-10-28 14:49:17+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google