FocalClick-XL: Towards Unified and High-quality Interactive Segmentation

要約

インタラクティブセグメンテーションにより、ユーザーは、クリック、落書き、ボックスなどの単純なインタラクションを通じて、ターゲットオブジェクトのバイナリマスクを抽出できます。
ただし、既存の方法は、限られた相互作用フォームのみをサポートし、細かい詳細をキャプチャするのに苦労していることがよくあります。
このホワイトペーパーでは、フォーカリックの古典的な粗い粗い設計を再訪し、重要な拡張機能を導入します。
マルチステージ戦略に触発されて、これらの課題に同時に対処するために、新しいパイプラインFocalclick-XLを提案します。
大規模な事前トレーニングの新たな傾向に続いて、インタラクティブなセグメンテーションを、コンテキスト、オブジェクト、および詳細などのさまざまなレベルの情報をキャプチャするメタタスクに分解します。各レベルに専用のサブネットを割り当てます。この分解により、各サブネットは独立したデータを使用してスケーリングされた事前測定を受け、効果を最大化できます。
柔軟性を向上させるために、特定のインタラクションタイプをエンコードするためにオブジェクトレベルでプロンプトレイヤーを導入しながら、さまざまなインタラクションフォームにわたってコンテキストレベルと詳細レベルの情報を共通の知識として共有します。
その結果、FocalClick-XLは、クリックベースのベンチマークで最先端のパフォーマンスを実現し、ボックス、落書き、粗いマスクなど、多様な相互作用形式に対する顕著な適応性を示しています。
バイナリマスク生成を超えて、細粒の詳細を備えたアルファマットを予測することもでき、インタラクティブなセグメンテーションのための多用途で強力なツールになります。

要約(オリジナル)

Interactive segmentation enables users to extract binary masks of target objects through simple interactions such as clicks, scribbles, and boxes. However, existing methods often support only limited interaction forms and struggle to capture fine details. In this paper, we revisit the classical coarse-to-fine design of FocalClick and introduce significant extensions. Inspired by its multi-stage strategy, we propose a novel pipeline, FocalClick-XL, to address these challenges simultaneously. Following the emerging trend of large-scale pretraining, we decompose interactive segmentation into meta-tasks that capture different levels of information — context, object, and detail — assigning a dedicated subnet to each level.This decomposition allows each subnet to undergo scaled pretraining with independent data and supervision, maximizing its effectiveness. To enhance flexibility, we share context- and detail-level information across different interaction forms as common knowledge while introducing a prompting layer at the object level to encode specific interaction types. As a result, FocalClick-XL achieves state-of-the-art performance on click-based benchmarks and demonstrates remarkable adaptability to diverse interaction formats, including boxes, scribbles, and coarse masks. Beyond binary mask generation, it is also capable of predicting alpha mattes with fine-grained details, making it a versatile and powerful tool for interactive segmentation.

arxiv情報

著者 Xi Chen,Hengshuang Zhao
発行日 2025-06-17 16:21:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク