Colonoscopy Landmark Detection using Vision Transformers

要約

大腸内視鏡検査は、ポリープ、憩室、結腸構造の狭小化などの異常がないか結腸と直腸を検査するために使用される定期的な外来処置です。
臨床医は、医療記録の維持やさらなる調査のために、結腸内視鏡検査中に撮影されたスナップショットの後処理にかなりの時間を費やしています。
このステップを自動化すると、時間を節約し、プロセスの効率を向上させることができます。
私たちの仕事では、専門家によって注釈が付けられた、120 の大腸内視鏡検査ビデオと手順中に撮影された 2416 のスナップショットのデータセットを収集しました。
さらに、結腸内視鏡検査中に撮影されたスナップショットから主要な解剖学的ランドマーク (虫垂開口部、回盲弁/盲腸ランドマーク、および直腸後屈) を識別する、新しいビジョン トランスフォーマー ベースのランドマーク検出アルゴリズムを開発しました。
私たちのアルゴリズムは、前処理中に適応ガンマ補正を使用して、すべての画像の一貫した明るさを維持します。
次に、特徴抽出バックボーンとしてビジョン トランスフォーマーを使用し、完全に接続されたネットワーク ベースの分類子ヘッドを使用して、特定のフレームを 4 つのクラス (3 つのランドマークまたは非ランドマーク フレーム) に分類します。
ビジョン トランスフォーマー (ViT-B/16) バックボーンを、同様にトレーニングされた ResNet-101 および ConvNext-B バックボーンと比較します。
スナップショットのテスト データセットで、ビジョン トランスフォーマー バックボーンを使用して 82% の精度を報告しています。

要約(オリジナル)

Colonoscopy is a routine outpatient procedure used to examine the colon and rectum for any abnormalities including polyps, diverticula and narrowing of colon structures. A significant amount of the clinician’s time is spent in post-processing snapshots taken during the colonoscopy procedure, for maintaining medical records or further investigation. Automating this step can save time and improve the efficiency of the process. In our work, we have collected a dataset of 120 colonoscopy videos and 2416 snapshots taken during the procedure, that have been annotated by experts. Further, we have developed a novel, vision-transformer based landmark detection algorithm that identifies key anatomical landmarks (the appendiceal orifice, ileocecal valve/cecum landmark and rectum retroflexion) from snapshots taken during colonoscopy. Our algorithm uses an adaptive gamma correction during preprocessing to maintain a consistent brightness for all images. We then use a vision transformer as the feature extraction backbone and a fully connected network based classifier head to categorize a given frame into four classes: the three landmarks or a non-landmark frame. We compare the vision transformer (ViT-B/16) backbone with ResNet-101 and ConvNext-B backbones that have been trained similarly. We report an accuracy of 82% with the vision transformer backbone on a test dataset of snapshots.

arxiv情報

著者 Aniruddha Tamhane,Tse’ela Mida,Erez Posner,Moshe Bouhnik
発行日 2022-09-27 12:11:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク