Benchmarking Pretrained Attention-based Models for Real-Time Recognition in Robot-Assisted Esophagectomy

要約

食道がんは、世界中で最も一般的ながんの種類の 1 つです。
従来、開腹食道切除術を使用して治療されてきましたが、近年、ロボット支援による低侵襲食道切除術(RAMIE)が有望な代替手段として浮上しています。
ただし、ロボット支援手術は、空間認識能力の喪失に悩まされることが多いため、初心者の外科医にとっては困難な場合があります。
コンピュータ支援による解剖学的認識は、手術のナビゲーションを改善する可能性を秘めていますが、この分野での研究は依然として限られています。
この研究では、重要な解剖学的構造と手術器具のこれまでで最大のコレクションを特徴とする、RAMIE のセマンティック セグメンテーション用の包括的なデータセットを開発しました。
この多様なクラスのセットを処理するには、クラスの不均衡や神経などの複雑な構造の認識などの課題が伴います。
この研究は、この新しいデータセットと問題に関する現在の最先端のアルゴリズムの課題と限界を理解することを目的としています。
したがって、2 つの事前トレーニング データセットを使用して、8 つのリアルタイム ディープ ラーニング モデルのベンチマークを実行しました。
私たちは従来のネットワークと注意ベースのネットワークの両方を評価し、注意ベースのネットワークの方が全体的なパターンをよりよく捉え、血液や他の組織によって引き起こされる閉塞などの課題に対処できるという仮説を立てました。
このベンチマークには、当社の RAMIE データセットと一般公開されている CholecSeg8k データセットが含まれており、外科的セグメンテーション タスクの徹底的な評価を可能にします。
私たちの調査結果は、セマンティック セグメンテーション用のデータセットである ADE20k での事前トレーニングが、ImageNet での事前トレーニングよりも効果的であることを示しています。
さらに、アテンションベースのモデルは従来の畳み込みニューラル ネットワークよりも優れており、SegNeXt と Mask2Former はより高い Dice スコアを達成し、さらに Mask2Former は平均対称面距離でも優れています。

要約(オリジナル)

Esophageal cancer is among the most common types of cancer worldwide. It is traditionally treated using open esophagectomy, but in recent years, robot-assisted minimally invasive esophagectomy (RAMIE) has emerged as a promising alternative. However, robot-assisted surgery can be challenging for novice surgeons, as they often suffer from a loss of spatial orientation. Computer-aided anatomy recognition holds promise for improving surgical navigation, but research in this area remains limited. In this study, we developed a comprehensive dataset for semantic segmentation in RAMIE, featuring the largest collection of vital anatomical structures and surgical instruments to date. Handling this diverse set of classes presents challenges, including class imbalance and the recognition of complex structures such as nerves. This study aims to understand the challenges and limitations of current state-of-the-art algorithms on this novel dataset and problem. Therefore, we benchmarked eight real-time deep learning models using two pretraining datasets. We assessed both traditional and attention-based networks, hypothesizing that attention-based networks better capture global patterns and address challenges such as occlusion caused by blood or other tissues. The benchmark includes our RAMIE dataset and the publicly available CholecSeg8k dataset, enabling a thorough assessment of surgical segmentation tasks. Our findings indicate that pretraining on ADE20k, a dataset for semantic segmentation, is more effective than pretraining on ImageNet. Furthermore, attention-based models outperform traditional convolutional neural networks, with SegNeXt and Mask2Former achieving higher Dice scores, and Mask2Former additionally excelling in average symmetric surface distance.

arxiv情報

著者 Ronald L. P. D. de Jong,Yasmina al Khalil,Tim J. M. Jaspers,Romy C. van Jaarsveld,Gino M. Kuiper,Yiping Li,Richard van Hillegersberg,Jelle P. Ruurda,Marcel Breeuwer,Fons van der Sommen
発行日 2024-12-04 15:32:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク