Knowledge Distillation for Adaptive MRI Prostate Segmentation Based on Limit-Trained Multi-Teacher Models

要約

多数の医療タスクで、ディープ モデルのパフォーマンスは最近大幅に改善されました。
これらのモデルは、多くの場合、熟達した学習者です。
しかし、それらの複雑なアーキテクチャ設計と高度な計算の複雑さにより、特にリソースが限られているデバイスでは、臨床環境への展開が困難になっています。
この問題に対処するために、Knowledge Distillation (KD) が圧縮方法および高速化技術として提案されています。
KD は、負担の大きいモデル (教師モデル) から軽量モデル (生徒モデル) に知識を移すことができる効率的な学習戦略です。
したがって、教師のパフォーマンスを維持しながら、パラメーターの低いコンパクトなモデルを取得できます。
したがって、この作業では、機能ベースの蒸留とカルバック・ライブラー発散、Lovasz、およびダイス損失を組み合わせることにより、前立腺 MRI セグメンテーションの KD ベースのディープ モデルを開発します。
2 つの圧縮手順を適用することで、その有効性をさらに実証します。1) 十分に訓練された 1 人の教師から知識を学生モデルに抽出する、2) ほとんどの医療アプリケーションには小さなデータセットがあるため、それぞれが訓練した複数の教師を訓練します。
望ましい精度と高速な推論時間を考慮して、可能な限り教師に近い適応学生モデルを学習するための小さな画像セット。
公共のマルチサイト前立腺腫瘍データセットに対して広範な実験が行われ、提案された適応 KD 戦略がサイコロ類似性スコアを 9% 改善し、テスト済みの確立されたすべてのベースライン モデルよりも優れていることが示されました。

要約(オリジナル)

With numerous medical tasks, the performance of deep models has recently experienced considerable improvements. These models are often adept learners. Yet, their intricate architectural design and high computational complexity make deploying them in clinical settings challenging, particularly with devices with limited resources. To deal with this issue, Knowledge Distillation (KD) has been proposed as a compression method and an acceleration technology. KD is an efficient learning strategy that can transfer knowledge from a burdensome model (i.e., teacher model) to a lightweight model (i.e., student model). Hence we can obtain a compact model with low parameters with preserving the teacher’s performance. Therefore, we develop a KD-based deep model for prostate MRI segmentation in this work by combining features-based distillation with Kullback-Leibler divergence, Lovasz, and Dice losses. We further demonstrate its effectiveness by applying two compression procedures: 1) distilling knowledge to a student model from a single well-trained teacher, and 2) since most of the medical applications have a small dataset, we train multiple teachers that each one trained with a small set of images to learn an adaptive student model as close to the teachers as possible considering the desired accuracy and fast inference time. Extensive experiments were conducted on a public multi-site prostate tumor dataset, showing that the proposed adaptation KD strategy improves the dice similarity score by 9%, outperforming all tested well-established baseline models.

arxiv情報

著者 Eddardaa Ben Loussaief,Hatem Rashwan,Mohammed Ayad,Mohammed Zakaria Hassan,Domenec Puig
発行日 2023-03-16 17:15:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV パーマリンク