Swin transformers are robust to distribution and concept drift in endoscopy-based longitudinal rectal cancer assessment

要約

内視鏡画像は、がんのスクリーニングや診断から始まる直腸がん治療のさまざまな段階で、大腸炎などの治療による反応や毒性を評価するための治療中、新たな腫瘍や局所的再増殖(LR)を検出するための追跡調査で使用されます。
しかし、主観的な評価は非常にばらつきが大きく、一部の患者の反応の程度を過小評価して不必要な手術を受けさせたり、反応を過大評価して患者を疾患拡大のリスクにさらしたりする可能性があります。
深層学習の進歩により、内視鏡画像に対する一貫した客観的な反応評価を生成できることが示されました。
しかし、患者の治療と経過観察の全過程において、がんの検出、再増殖、反応の監視を行う方法は不足しています。
これは、自動診断と直腸がん反応の評価には、内視鏡画像に存在する固有の画像照明の変動や交絡条件(血液、スコープ、ぼやけ)、さらには治療中の正常な管腔や腫瘍の変化に対して堅牢な方法が必要であるためです。
したがって、階層シフト ウィンドウ (Swin) トランスフォーマーは、内視鏡画像を使用して直腸癌と正常な管腔を区別するようにトレーニングされました。
Swin と 2 つの畳み込み (ResNet-50、 WideResNet-50)、およびビジョン トランスフォーマー (ViT) モデルは、プライベート データセットおよび分布外 (OOD) 上の LR を検出するために追跡縦断画像でトレーニングおよび評価されました。
) 前癌性/非癌性ポリープを検出するための公開結腸内視鏡検査データセット。
カラーシフトは、分布シフトをシミュレートするために最適なトランスポートを使用して適用されました。
Swin モデルと ResNet モデルは、分布内データセットにおいても同様に正確でした。
Swin は、色の変化がある場合でも他の方法 (追跡: 0.84、OOD: 0.83) よりも正確であり (追跡: 0.83、OOD: 0.87)、長期的ながん評価に堅牢なパフォーマンスを提供できる能力を示しています。

要約(オリジナル)

Endoscopic images are used at various stages of rectal cancer treatment starting from cancer screening, diagnosis, during treatment to assess response and toxicity from treatments such as colitis, and at follow up to detect new tumor or local regrowth (LR). However, subjective assessment is highly variable and can underestimate the degree of response in some patients, subjecting them to unnecessary surgery, or overestimate response that places patients at risk of disease spread. Advances in deep learning has shown the ability to produce consistent and objective response assessment for endoscopic images. However, methods for detecting cancers, regrowth, and monitoring response during the entire course of patient treatment and follow-up are lacking. This is because, automated diagnosis and rectal cancer response assessment requires methods that are robust to inherent imaging illumination variations and confounding conditions (blood, scope, blurring) present in endoscopy images as well as changes to the normal lumen and tumor during treatment. Hence, a hierarchical shifted window (Swin) transformer was trained to distinguish rectal cancer from normal lumen using endoscopy images. Swin as well as two convolutional (ResNet-50, WideResNet-50), and vision transformer (ViT) models were trained and evaluated on follow-up longitudinal images to detect LR on private dataset as well as on out-of-distribution (OOD) public colonoscopy datasets to detect pre/non-cancerous polyps. Color shifts were applied using optimal transport to simulate distribution shifts. Swin and ResNet models were similarly accurate in the in-distribution dataset. Swin was more accurate than other methods (follow-up: 0.84, OOD: 0.83) even when subject to color shifts (follow-up: 0.83, OOD: 0.87), indicating capability to provide robust performance for longitudinal cancer assessment.

arxiv情報

著者 Jorge Tapias Gomez,Aneesh Rangnekar,Hannah Williams,Hannah Thompson,Julio Garcia-Aguilar,Joshua Jesse Smith,Harini Veeraraghavan
発行日 2024-08-26 15:40:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV パーマリンク