Frontiers in Intelligent Colonoscopy

要約

結腸内視鏡検査は現在、結腸直腸がんの最も感度の高いスクリーニング法の 1 つです。
この研究では、インテリジェントな結腸内視鏡検査技術の最前線と、マルチモーダルな医療応用に対するその将来的な影響を調査します。
この目標を達成するには、分類、検出、セグメンテーション、視覚言語理解など、結腸内視鏡シーン認識のための 4 つのタスクを通じて、現在のデータ中心およびモデル中心の状況を評価することから始めます。
この評価により、領域固有の課題を特定できるようになり、結腸内視鏡検査における複合的な研究にはさらなる探求の余地が残されていることが明らかになりました。
来るべきマルチモーダル時代を受け入れるために、私たちは 3 つの基本的な取り組みを確立します。それは、大規模なマルチモーダル命令チューニング データセット ColonINST、結腸内視鏡検査によって設計されたマルチモーダル言語モデル ColonGPT、およびマルチモーダル ベンチマークです。
この急速に進化する分野の継続的な監視を容易にするために、最新の更新情報を公開する公開 Web サイト (https://github.com/ai4colonoscopy/IntelliScope) を提供しています。

要約(オリジナル)

Colonoscopy is currently one of the most sensitive screening methods for colorectal cancer. This study investigates the frontiers of intelligent colonoscopy techniques and their prospective implications for multimodal medical applications. With this goal, we begin by assessing the current data-centric and model-centric landscapes through four tasks for colonoscopic scene perception, including classification, detection, segmentation, and vision-language understanding. This assessment enables us to identify domain-specific challenges and reveals that multimodal research in colonoscopy remains open for further exploration. To embrace the coming multimodal era, we establish three foundational initiatives: a large-scale multimodal instruction tuning dataset ColonINST, a colonoscopy-designed multimodal language model ColonGPT, and a multimodal benchmark. To facilitate ongoing monitoring of this rapidly evolving field, we provide a public website for the latest updates: https://github.com/ai4colonoscopy/IntelliScope.

arxiv情報

著者 Ge-Peng Ji,Jingyi Liu,Peng Xu,Nick Barnes,Fahad Shahbaz Khan,Salman Khan,Deng-Ping Fan
発行日 2024-10-22 17:57:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV パーマリンク