Segment Anything Model for automated image data annotation: empirical studies using text prompts from Grounding DINO

要約

Grounding DINO と Segment Anything Model (SAM) は、それぞれゼロショット物体検出と画像セグメンテーションで優れたパフォーマンスを達成しました。
これらを組み合わせることで、ゼロショット セマンティック セグメンテーションやデータ アノテーションにおいてアプリケーションに革命を起こす大きな可能性を秘めています。
しかし、医療画像セグメンテーションなどの特殊な領域では、対象となるオブジェクト (臓器、組織、腫瘍など) が既存のクラス名に当てはまらない場合があります。
この問題に対処するために、Grounding DINO の参照表現理解 (REC) 機能を利用して、言語記述によって任意のターゲットを検出します。
ただし、最近の研究では、指定された画像にターゲットが存在しない場合に誤検知予測を行う傾向があるため、このアプリケーション設定における REC フレームワークの厳しい制限が浮き彫りになっています。
そして、このボトルネックはオープンセットのセマンティック セグメンテーションの見通しの中心ですが、予測誤差を研究することでどの程度の改善が達成できるかはまだほとんどわかっていません。
この目的を達成するために、私たちはさまざまなドメインにわたる 6 つの公的に利用可能なデータセットに対して実証研究を実行し、これらのエラーは一貫して予測可能なパターンに従っており、したがって単純な戦略によって軽減できることを明らかにしました。
具体的には、かなりの信頼スコアを持つ誤検知は一般に大きな画像領域を占有し、通常は相対的なサイズによってフィルタリングできることを示します。
さらに重要なことは、これらの観察が、REC ベースの検出と自動セグメンテーションの改善に関する将来の研究に影響を与えると期待していることです。
一方、私たちはさまざまな専門領域の複数のデータセットに対する SAM のパフォーマンスを評価し、手動アプローチと比較してセグメンテーション パフォーマンスの大幅な向上とアノテーション時間の節約を報告しています。

要約(オリジナル)

Grounding DINO and the Segment Anything Model (SAM) have achieved impressive performance in zero-shot object detection and image segmentation, respectively. Together, they have a great potential to revolutionize applications in zero-shot semantic segmentation or data annotation. Yet, in specialized domains like medical image segmentation, objects of interest (e.g., organs, tissues, and tumors) may not fall in existing class names. To address this problem, the referring expression comprehension (REC) ability of Grounding DINO is leveraged to detect arbitrary targets by their language descriptions. However, recent studies have highlighted severe limitation of the REC framework in this application setting owing to its tendency to make false positive predictions when the target is absent in the given image. And, while this bottleneck is central to the prospect of open-set semantic segmentation, it is still largely unknown how much improvement can be achieved by studying the prediction errors. To this end, we perform empirical studies on six publicly available datasets across different domains and reveal that these errors consistently follow a predictable pattern and can, thus, be mitigated by a simple strategy. Specifically, we show that false positive detections with appreciable confidence scores generally occupy large image areas and can usually be filtered by their relative sizes. More importantly, we expect these observations to inspire future research in improving REC-based detection and automated segmentation. Meanwhile, we evaluate the performance of SAM on multiple datasets from various specialized domains and report significant improvements in segmentation performance and annotation time savings over manual approaches.

arxiv情報

著者 Fuseini Mumuni,Alhassan Mumuni
発行日 2024-06-30 07:54:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG, cs.RO パーマリンク