Knowledge Extraction and Distillation from Large-Scale Image-Text Colonoscopy Records Leveraging Large Language and Vision Models


ここでは、大規模な言語およびビジョン モデルにおける最近の進歩を活用し、深い知識の抽出と蒸留のためのデータ マイニング パラダイムである EndoKED を提案します。
EndoKED は、生の結腸内視鏡検査記録をピクセルレベルのアノテーションを備えた画像データセットに変換する処理を自動化します。
私たちは、生の結腸内視鏡検査記録 (約 100 万枚の画像) の多施設データセットを使用して EndoKED を検証し、ポリープ検出およびセグメンテーション モデルのトレーニングにおける優れたパフォーマンスを実証しています。
さらに、EndoKED の事前トレーニング済み視覚バックボーンにより、光生検のデータ効率が高く一般化可能な学習が可能になり、遡及的検証と前向き検証の両方で専門家レベルのパフォーマンスを実現します。


The development of artificial intelligence systems for colonoscopy analysis often necessitates expert-annotated image datasets. However, limitations in dataset size and diversity impede model performance and generalisation. Image-text colonoscopy records from routine clinical practice, comprising millions of images and text reports, serve as a valuable data source, though annotating them is labour-intensive. Here we leverage recent advancements in large language and vision models and propose EndoKED, a data mining paradigm for deep knowledge extraction and distillation. EndoKED automates the transformation of raw colonoscopy records into image datasets with pixel-level annotation. We validate EndoKED using multi-centre datasets of raw colonoscopy records (~1 million images), demonstrating its superior performance in training polyp detection and segmentation models. Furthermore, the EndoKED pre-trained vision backbone enables data-efficient and generalisable learning for optical biopsy, achieving expert-level performance in both retrospective and prospective validation.


著者 Shuo Wang,Yan Zhu,Xiaoyuan Luo,Zhiwei Yang,Yizhe Zhang,Peiyao Fu,Manning Wang,Zhijian Song,Quanlin Li,Pinghong Zhou,Yike Guo
発行日 2023-10-17 11:41:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, Google

カテゴリー: cs.AI, cs.CV パーマリンク