Let Human Sketches Help: Empowering Challenging Image Segmentation Task with Freehand Sketches

要約

表現力のある可能性を備えたスケッチは、人間が粗い輪郭を通して物体の本質を伝えることができます。
初めて、カモフラージュオブジェクト検出(COD)などの挑戦的なタスクでセグメンテーションパフォーマンスを改善するこの表現力のある可能性を活用します。
私たちのアプローチでは、革新的なスケッチガイド付きインタラクティブセグメンテーションフレームワークを紹介し、ユーザーがSAMなどの古典的なインタラクティブセグメンテーションモデルで使用される従来の境界ボックスまたはポイントの代わりに、フリーハンドスケッチ(オブジェクトの粗い輪郭を描く)で直感的に注釈を付けることができます。
スケッチ入力が、既存の反復セグメンテーション方法、アウトパフォームテキスト、または境界ボックスアノテーションのパフォーマンスを大幅に改善できることを実証します。
さらに、ネットワークアーキテクチャの重要な変更と、スケッチ入力の能力を完全に活用し、セグメンテーションの精度をさらに高めるための新しいスケッチ増強技術を紹介します。
驚くべきことに、私たちのモデルの出力は、他のニューラルネットワークをトレーニングするために直接使用でき、ピクセルごとの注釈に匹敵する結果を達成します。
リソース集約型の面倒なピクセルレベルの注釈に依存しないモデルトレーニング。
また、カモフラージュオブジェクト検出用の最初のフリーハンドスケッチデータセットであるKoscamo+も提示します。
データセット、コード、およびラベリングツールは、オープンソースになります。

要約(オリジナル)

Sketches, with their expressive potential, allow humans to convey the essence of an object through even a rough contour. For the first time, we harness this expressive potential to improve segmentation performance in challenging tasks like camouflaged object detection (COD). Our approach introduces an innovative sketch-guided interactive segmentation framework, allowing users to intuitively annotate objects with freehand sketches (drawing a rough contour of the object) instead of the traditional bounding boxes or points used in classic interactive segmentation models like SAM. We demonstrate that sketch input can significantly improve performance in existing iterative segmentation methods, outperforming text or bounding box annotations. Additionally, we introduce key modifications to network architectures and a novel sketch augmentation technique to fully harness the power of sketch input and further boost segmentation accuracy. Remarkably, our model’ s output can be directly used to train other neural networks, achieving results comparable to pixel-by-pixel annotations–while reducing annotation time by up to 120 times, which shows great potential in democratizing the annotation process and enabling model training with less reliance on resource-intensive, laborious pixel-level annotations. We also present KOSCamo+, the first freehand sketch dataset for camouflaged object detection. The dataset, code, and the labeling tool will be open sourced.

arxiv情報

著者 Ying Zang,Runlong Cao,Jianqi Zhang,Yidong Han,Ziyue Cao,Wenjun Hu,Didi Zhu,Lanyun Zhu,Zejian Li,Deyi Ji,Tianrun Chen
発行日 2025-01-31 17:26:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク