要約
画像テキストの大腸内視鏡検査記録の事前トレーニングは、内視鏡画像分析を改善するための大きな可能性を提供しますが、非情報的な背景画像、複雑な医療用語、曖昧な多病期の説明などの課題に直面しています。
このドメインの対照的な言語イメージ(CLIP)を強化する新しい自己監視フレームワークであるEndo-Clipを紹介します。
Endo-Clipの3段階のフレームワーク – クレンディング、アチューン、統一 – は、(1)背景フレームを削除することにより、これらの課題を採用します。
広範な実験は、Endo-Clipがゼロショットおよび少数のPolypの検出と分類で最先端のトレーニング前の方法を大幅に上回り、より正確で臨床的に関連する内視鏡分析への道を開くことを示しています。
要約(オリジナル)
Pre-training on image-text colonoscopy records offers substantial potential for improving endoscopic image analysis, but faces challenges including non-informative background images, complex medical terminology, and ambiguous multi-lesion descriptions. We introduce Endo-CLIP, a novel self-supervised framework that enhances Contrastive Language-Image Pre-training (CLIP) for this domain. Endo-CLIP’s three-stage framework–cleansing, attunement, and unification–addresses these challenges by (1) removing background frames, (2) leveraging large language models to extract clinical attributes for fine-grained contrastive learning, and (3) employing patient-level cross-attention to resolve multi-polyp ambiguities. Extensive experiments demonstrate that Endo-CLIP significantly outperforms state-of-the-art pre-training methods in zero-shot and few-shot polyp detection and classification, paving the way for more accurate and clinically relevant endoscopic analysis.
arxiv情報
著者 | Yili He,Yan Zhu,Peiyao Fu,Ruijie Yang,Tianyi Chen,Zhihua Wang,Quanlin Li,Pinghong Zhou,Xian Yang,Shuo Wang |
発行日 | 2025-05-14 14:43:31+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google