Visual In-Context Learning for Few-Shot Eczema Segmentation

要約

デジタル カメラ画像からの湿疹の自動診断は、患者が回復を自己監視できるアプリケーションを開発するために重要です。
この重要な要素は、そのような画像から湿疹領域をセグメンテーションすることです。
湿疹セグメンテーションの現在の方法は、畳み込み (CNN) ベースの U-Net やトランスベースの Swin U-Net などのディープ ニューラル ネットワークに依存しています。
これらの方法は効果的ではありますが、大量の注釈付きデータが必要となり、取得が困難になる場合があります。
ここでは、モデルを再トレーニングすることなく、少数の例を使用して少数ショットの湿疹セグメンテーションを実行できる視覚的なコンテキスト内学習の機能を調査します。
具体的には、SegGPTと呼ばれるジェネラリスト視覚モデルを使用した湿疹セグメンテーションのインコンテキスト学習を適用する戦略を提案します。
注釈付きの湿疹画像のデータセットでベンチマークを行った場合、トレーニング データセットからの代表的なサンプル画像を 2 枚だけ使用した SegGPT の方が、428 枚の画像でトレーニングされた CNN U-Net (mIoU: 32.60) よりも優れたパフォーマンス (mIoU: 36.69) を示しました。
また、SegGPT に対してより多くの例を使用すると、実際にはそのパフォーマンスに悪影響を与える可能性があることもわかりました。
私たちの結果は、皮膚画像化タスクに対するより迅速で優れたソリューションを開発する際の、コンテキスト内での視覚的な学習の重要性を浮き彫りにしています。
また、私たちの結果は、通常、トレーニング データで大幅に過小評価されている人口統計内の少数派に対応できる包括的なソリューションを開発する道も開きます。

要約(オリジナル)

Automated diagnosis of eczema from digital camera images is crucial for developing applications that allow patients to self-monitor their recovery. An important component of this is the segmentation of eczema region from such images. Current methods for eczema segmentation rely on deep neural networks such as convolutional (CNN)-based U-Net or transformer-based Swin U-Net. While effective, these methods require high volume of annotated data, which can be difficult to obtain. Here, we investigate the capabilities of visual in-context learning that can perform few-shot eczema segmentation with just a handful of examples and without any need for retraining models. Specifically, we propose a strategy for applying in-context learning for eczema segmentation with a generalist vision model called SegGPT. When benchmarked on a dataset of annotated eczema images, we show that SegGPT with just 2 representative example images from the training dataset performs better (mIoU: 36.69) than a CNN U-Net trained on 428 images (mIoU: 32.60). We also discover that using more number of examples for SegGPT may in fact be harmful to its performance. Our result highlights the importance of visual in-context learning in developing faster and better solutions to skin imaging tasks. Our result also paves the way for developing inclusive solutions that can cater to minorities in the demographics who are typically heavily under-represented in the training data.

arxiv情報

著者 Neelesh Kumar,Oya Aran,Venugopal Vasudevan
発行日 2023-09-28 17:55:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク