PiClick: Picking the desired mask in click-based interactive segmentation

要約

クリックベースのインタラクティブ セグメンテーションは、人間によるクリックによってターゲット マスクを生成することを目的としており、これにより効率的なピクセル レベルの注釈と画像編集が容易になります。
このようなタスクでは、ターゲットの曖昧さがセグメンテーションの精度と効率を妨げる問題として残ります。
つまり、豊富なコンテキストを持つシーンでは、1 回のクリックが複数の潜在的なターゲットに対応する可能性がありますが、これまでのインタラクティブ セグメンタのほとんどは 1 つのマスクしか生成せず、ターゲットの曖昧さに対処できませんでした。
この論文では、潜在的に合理的なマスクをすべて生成し、ユーザーにとって最も妥当なマスクを提案する、PiClick という名前の新しい対話型セグメンテーション ネットワークを提案します。
具体的には、PiClick は Transformer ベースのアーキテクチャを利用して、相互対話型のマスク クエリによってすべての潜在的なターゲット マスクを生成します。
さらに、PiClick ではターゲット推論モジュールが設計されており、すべての候補の中からユーザーが希望するマスクを自動的に提案し、ターゲットの曖昧さと人外の労力を軽減します。
9 つのインタラクティブ セグメンテーション データセットに対する広範な実験により、セグメンテーションの結果を考慮すると、PiClick が以前の最先端技術に比べて有利に機能することが実証されました。
さらに、PiClick が、必要なマスクに注釈を付けたり選択したりする人間の労力を効果的に軽減することを示します。
使いやすさを高め、将来の研究を促進するために、PiClick のソース コードをプラグ アンド プレイの注釈ツールとともに https://github.com/cilinyan/PiClick でリリースします。

要約(オリジナル)

Click-based interactive segmentation aims to generate target masks via human clicking, which facilitates efficient pixel-level annotation and image editing. In such a task, target ambiguity remains a problem hindering the accuracy and efficiency of segmentation. That is, in scenes with rich context, one click may correspond to multiple potential targets, while most previous interactive segmentors only generate a single mask and fail to deal with target ambiguity. In this paper, we propose a novel interactive segmentation network named PiClick, to yield all potentially reasonable masks and suggest the most plausible one for the user. Specifically, PiClick utilizes a Transformer-based architecture to generate all potential target masks by mutually interactive mask queries. Moreover, a Target Reasoning module is designed in PiClick to automatically suggest the user-desired mask from all candidates, relieving target ambiguity and extra-human efforts. Extensive experiments on 9 interactive segmentation datasets demonstrate PiClick performs favorably against previous state-of-the-arts considering the segmentation results. Moreover, we show that PiClick effectively reduces human efforts in annotating and picking the desired masks. To ease the usage and inspire future research, we release the source code of PiClick together with a plug-and-play annotation tool at https://github.com/cilinyan/PiClick.

arxiv情報

著者 Cilin Yan,Haochen Wang,Jie Liu,Xiaolong Jiang,Yao Hu,Xu Tang,Guoliang Kang,Efstratios Gavves
発行日 2024-01-29 14:33:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク