Revisiting Click-based Interactive Video Object Segmentation

要約

現在のインタラクティブビデオオブジェクトセグメンテーション(iVOS)の手法は、正確なオブジェクトマスクを生成するために、落書きベースのインタラクションに依存しているが、我々は、必要なユーザの作業負荷をできるだけ簡素化するために、クリックベースのインタラクティブビデオオブジェクトセグメンテーション(CiVOS)の枠組みを提案する。CiVOSは、ユーザとのインタラクションを反映したモジュールと、マスクの伝搬を反映したモジュールを分離して構築しています。インタラクションモジュールは、クリックベースのインタラクションをオブジェクトマスクに変換し、伝搬モジュールによって残りのフレームに推論される。追加のユーザーインタラクションにより、オブジェクトマスクの改良が可能である。このアプローチは、人気のあるインタラクティブなDAVISデータセットで広範囲に評価されているが、落書きベースのインタラクションをクリックベースの対応物に適応させることが避けられない。また、DAVISの性能指標を調整することで、ハードウェアに依存しない比較を行っている。CiVOSパイプラインは、より低いユーザ作業負荷にもかかわらず、競争力のある結果を達成しました。

要約(オリジナル)

While current methods for interactive Video Object Segmentation (iVOS) rely on scribble-based interactions to generate precise object masks, we propose a Click-based interactive Video Object Segmentation (CiVOS) framework to simplify the required user workload as much as possible. CiVOS builds on de-coupled modules reflecting user interaction and mask propagation. The interaction module converts click-based interactions into an object mask, which is then inferred to the remaining frames by the propagation module. Additional user interactions allow for a refinement of the object mask. The approach is extensively evaluated on the popular interactive~DAVIS dataset, but with an inevitable adaptation of scribble-based interactions with click-based counterparts. We consider several strategies for generating clicks during our evaluation to reflect various user inputs and adjust the DAVIS performance metric to perform a hardware-independent comparison. The presented CiVOS pipeline achieves competitive results, although requiring a lower user workload.

arxiv情報

著者 Stephane Vujasinovic,Sebastian Bullinger,Stefan Becker,Norbert Scherer-Negenborn,Michael Arens,Rainer Stiefelhagen
発行日 2022-06-07 15:25:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク