Freestyle Sketch-in-the-Loop Image Segmentation

要約

この論文では、主観的な画像セグメンテーションのクエリモダリティとしてフリーハンドスケッチを確立することを目指して、画像セグメンテーションの分野にスケッチ研究のドメインを拡張します。
革新的なアプローチでは、「ループインスケッチ」画像セグメンテーションフレームワークを導入し、目的製のデータセットを必要とせずに、視覚的概念の部分的、完全、またはグループ化 – 真の「フリースタイル」アプローチのセグメンテーションを可能にします(すなわち。
、マスクフリー)。
このフレームワークは、スケッチベースの画像検索(SBIR)モデルと大規模な事前訓練モデル(CLIPまたはDINOV2)の相乗効果を活用しています。
前者は効果的なトレーニング信号を提供し、後者の微調整されたバージョンは主観的なセグメンテーションを実行します。
さらに、目的で作られた増強戦略により、スケッチガイド付きマスク生成の汎用性が向上し、複数の粒度レベルでのセグメンテーションが可能になります。
さまざまな評価シナリオにわたる既存のアプローチと比較して、多様なベンチマークデータセット全体の広範な評価が私たちの方法の優れたパフォーマンスを強調しています。

要約(オリジナル)

In this paper, we expand the domain of sketch research into the field of image segmentation, aiming to establish freehand sketches as a query modality for subjective image segmentation. Our innovative approach introduces a ‘sketch-in-the-loop’ image segmentation framework, enabling the segmentation of visual concepts partially, completely, or in groupings – a truly ‘freestyle’ approach – without the need for a purpose-made dataset (i.e., mask-free). This framework capitalises on the synergy between sketch-based image retrieval (SBIR) models and large-scale pre-trained models (CLIP or DINOv2). The former provides an effective training signal, while fine-tuned versions of the latter execute the subjective segmentation. Additionally, our purpose-made augmentation strategy enhances the versatility of our sketch-guided mask generation, allowing segmentation at multiple granularity levels. Extensive evaluations across diverse benchmark datasets underscore the superior performance of our method in comparison to existing approaches across various evaluation scenarios.

arxiv情報

著者 Subhadeep Koley,Viswanatha Reddy Gajjala,Aneeshan Sain,Pinaki Nath Chowdhury,Tao Xiang,Ayan Kumar Bhunia,Yi-Zhe Song
発行日 2025-01-27 13:07:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク