Sketch-based Video Object Segmentation: Benchmark and Analysis

要約

参照ベースのビデオ オブジェクト セグメンテーションは、言語表現やフォト マスクなどの特定の参照によって参照される各ビデオ フレーム内の対応するターゲット オブジェクトをセグメント化することを目的とした新たなトピックです。
しかし、言語表現は、意図した概念を伝えるのに曖昧な場合や、1 つのフレーム内の類似したオブジェクトを言語で区別するのが難しい場合に曖昧になる場合があります。
一方、フォトマスクは注釈を付けるのにコストがかかり、実際のアプリケーションで提供するのは実用的ではありません。
このペーパーでは、スケッチベースのビデオ オブジェクト セグメンテーションの新しいタスク、関連するベンチマーク、および強力なベースラインを紹介します。
私たちのベンチマークには、Sketch-DAVIS16、Sketch-DAVIS17、Sketch-YouTube-VOS の 3 つのデータセットが含まれており、人間が描いたスケッチを有益かつ低コストのビデオ オブジェクト セグメンテーションのリファレンスとして活用します。
私たちは、半教師あり VOS タスクの一般的なベースラインである STCN を利用し、スケッチ参照を組み込むための最も効果的な設計は何かを評価します。
実験結果では、スケッチはフォトマスク、言語、落書きなどの他の参照よりも効果的でありながら、注釈の効率も高いことがわかりました。

要約(オリジナル)

Reference-based video object segmentation is an emerging topic which aims to segment the corresponding target object in each video frame referred by a given reference, such as a language expression or a photo mask. However, language expressions can sometimes be vague in conveying an intended concept and ambiguous when similar objects in one frame are hard to distinguish by language. Meanwhile, photo masks are costly to annotate and less practical to provide in a real application. This paper introduces a new task of sketch-based video object segmentation, an associated benchmark, and a strong baseline. Our benchmark includes three datasets, Sketch-DAVIS16, Sketch-DAVIS17 and Sketch-YouTube-VOS, which exploit human-drawn sketches as an informative yet low-cost reference for video object segmentation. We take advantage of STCN, a popular baseline of semi-supervised VOS task, and evaluate what the most effective design for incorporating a sketch reference is. Experimental results show sketch is more effective yet annotation-efficient than other references, such as photo masks, language and scribble.

arxiv情報

著者 Ruolin Yang,Da Li,Conghui Hu,Timothy Hospedales,Honggang Zhang,Yi-Zhe Song
発行日 2023-11-13 11:53:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク