Lightweight Relational Embedding in Task-Interpolated Few-Shot Networks for Enhanced Gastrointestinal Disease Classification

要約

大腸内視鏡検査のような従来の診断方法は、結腸直腸癌(CRC)の正確な診断に必要な侵襲的でありながら重要なツールです。
初期段階でのCRCの検出は、患者の生存率の増加に不可欠です。
ただし、大腸内視鏡検査は、適切で高品質の内視鏡画像の取得に依存しています。
長期にわたる侵襲的処置は患者にとって本質的に危険ですが、画像が診断の精度を妨げる最適でないまたは不十分な画像が妨げられます。
通常、ビデオフレームから派生したこれらの画像は、多くの場合、同様のパターンを示し、差別に課題を提起します。
これらの課題を克服するために、いくつかのショット学習アーキテクチャに基づいて構築された新しいディープラーニングネットワークを提案します。これには、カスタマイズされた特徴抽出器、タスク補間、リレーショナル埋め込み、およびバイレベルのルーティング注意メカニズムが含まれます。
少数のショット学習パラダイムにより、モデルは目に見えない細かい内視鏡画像パターンに迅速に適応することができ、タスクの補間により、さまざまな機器の視点から人工的に不十分な画像を増やします。
私たちのリレーショナル埋め込みアプローチは、重要な内像内機能を識別し、連続した内視鏡フレーム間の画像間遷移をキャプチャし、畳み込みニューラルネットワーク(CNN)の限界を克服します。
軽量の注意メカニズムの統合により、適切な画像領域の集中分析が保証されます。
多様なデータセットでトレーニングすることにより、内視鏡画像の処理のためにモデルの一般化可能性と堅牢性が顕著に改善されます。
Kvasir Datasetで評価されたこのモデルは、優れたパフォーマンスを実証し、90.1 \%の精度、0.845の精度、0.942のリコール、F1スコア0.891を達成しました。
これは、現在の最先端の方法を超えており、高度な画像分析を通じてCRC検出を最適化することにより、侵入性大腸内視鏡検査の課題に対する有望なソリューションを提示します。

要約(オリジナル)

Traditional diagnostic methods like colonoscopy are invasive yet critical tools necessary for accurately diagnosing colorectal cancer (CRC). Detection of CRC at early stages is crucial for increasing patient survival rates. However, colonoscopy is dependent on obtaining adequate and high-quality endoscopic images. Prolonged invasive procedures are inherently risky for patients, while suboptimal or insufficient images hamper diagnostic accuracy. These images, typically derived from video frames, often exhibit similar patterns, posing challenges in discrimination. To overcome these challenges, we propose a novel Deep Learning network built on a Few-Shot Learning architecture, which includes a tailored feature extractor, task interpolation, relational embedding, and a bi-level routing attention mechanism. The Few-Shot Learning paradigm enables our model to rapidly adapt to unseen fine-grained endoscopic image patterns, and the task interpolation augments the insufficient images artificially from varied instrument viewpoints. Our relational embedding approach discerns critical intra-image features and captures inter-image transitions between consecutive endoscopic frames, overcoming the limitations of Convolutional Neural Networks (CNNs). The integration of a light-weight attention mechanism ensures a concentrated analysis of pertinent image regions. By training on diverse datasets, the model’s generalizability and robustness are notably improved for handling endoscopic images. Evaluated on Kvasir dataset, our model demonstrated superior performance, achieving an accuracy of 90.1\%, precision of 0.845, recall of 0.942, and an F1 score of 0.891. This surpasses current state-of-the-art methods, presenting a promising solution to the challenges of invasive colonoscopy by optimizing CRC detection through advanced image analysis.

arxiv情報

著者 Xinliu Zhong,Leo Hwa Liang,Angela S. Koh,Yeo Si Yong
発行日 2025-05-30 16:54:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク