Visual In-Context Learning for Few-Shot Eczema Segmentation


デジタル カメラ画像からの湿疹の自動診断は、患者が回復を自己監視できるアプリケーションを開発するために重要です。
湿疹セグメンテーションの現在の方法は、畳み込み (CNN) ベースの U-Net やトランスベースの Swin U-Net などのディープ ニューラル ネットワークに依存しています。
注釈付きの湿疹画像のデータセットでベンチマークを行った場合、トレーニング データセットからの代表的なサンプル画像を 2 枚だけ使用した SegGPT の方が、428 枚の画像でトレーニングされた CNN U-Net (mIoU: 32.60) よりも優れたパフォーマンス (mIoU: 36.69) を示しました。
また、SegGPT に対してより多くの例を使用すると、実際にはそのパフォーマンスに悪影響を与える可能性があることもわかりました。
また、私たちの結果は、通常、トレーニング データで大幅に過小評価されている人口統計内の少数派に対応できる包括的なソリューションを開発する道も開きます。


Automated diagnosis of eczema from digital camera images is crucial for developing applications that allow patients to self-monitor their recovery. An important component of this is the segmentation of eczema region from such images. Current methods for eczema segmentation rely on deep neural networks such as convolutional (CNN)-based U-Net or transformer-based Swin U-Net. While effective, these methods require high volume of annotated data, which can be difficult to obtain. Here, we investigate the capabilities of visual in-context learning that can perform few-shot eczema segmentation with just a handful of examples and without any need for retraining models. Specifically, we propose a strategy for applying in-context learning for eczema segmentation with a generalist vision model called SegGPT. When benchmarked on a dataset of annotated eczema images, we show that SegGPT with just 2 representative example images from the training dataset performs better (mIoU: 36.69) than a CNN U-Net trained on 428 images (mIoU: 32.60). We also discover that using more number of examples for SegGPT may in fact be harmful to its performance. Our result highlights the importance of visual in-context learning in developing faster and better solutions to skin imaging tasks. Our result also paves the way for developing inclusive solutions that can cater to minorities in the demographics who are typically heavily under-represented in the training data.


著者 Neelesh Kumar,Oya Aran,Venugopal Vasudevan
