RClicks: Realistic Click Simulation for Benchmarking Interactive Segmentation

要約

Segment Anything (SAM) の出現により、特に画像編集タスクやデータ アノテーションの高速化のコンテキストにおいて、インタラクティブ セグメンテーションの分野における研究への関心が高まりました。
一般的なセマンティック セグメンテーションとは異なり、インタラクティブ セグメンテーション手法では、ユーザーがプロンプト (クリックなど) を通じて出力に直接影響を与えることができます。
ただし、現実世界のインタラクティブ セグメンテーション シナリオにおけるクリック パターンは、ほとんど解明されていないままです。
ほとんどの方法は、ユーザーが最大のエラー領域の中心をクリックするという想定に基づいています。
それにもかかわらず、最近の研究は、これが常に当てはまるわけではないことを示しています。
したがって、ベースライン ベンチマークのメトリクスが高いにもかかわらず、実際の展開ではメソッドのパフォーマンスが低下する可能性があります。
実際のユーザーのクリックを正確にシミュレートするために、インタラクティブ セグメンテーション シナリオにおけるクリック パターンに関する大規模なクラウドソーシング調査を実施し、475,000 件の実際のユーザー クリックを収集しました。
顕著性タスクからのアイデアに基づいて、実際のユーザー入力に非常に近いクリックのサンプリングを可能にするクリック可能性モデルを開発します。
私たちのモデルとデータセットを使用して、現実的なクリックに関する既存のインタラクティブ セグメンテーション手法を包括的に比較するための RClicks ベンチマークを提案します。
具体的には、メソッドの平均品質だけでなく、あらゆる点での堅牢性も評価します。
パターンをクリックします。
私たちのベンチマークによると、実際の使用状況では、インタラクティブ セグメンテーション モデルのパフォーマンスはベースライン ベンチマークで報告されているよりも悪くなる可能性があり、ほとんどの手法は堅牢ではありません。
私たちは、RClicks が、実際のケースで最高のユーザー エクスペリエンスを提供するインタラクティブなセグメンテーション手法の作成に向けた重要な一歩であると信じています。

要約(オリジナル)

The emergence of Segment Anything (SAM) sparked research interest in the field of interactive segmentation, especially in the context of image editing tasks and speeding up data annotation. Unlike common semantic segmentation, interactive segmentation methods allow users to directly influence their output through prompts (e.g. clicks). However, click patterns in real-world interactive segmentation scenarios remain largely unexplored. Most methods rely on the assumption that users would click in the center of the largest erroneous area. Nevertheless, recent studies show that this is not always the case. Thus, methods may have poor performance in real-world deployment despite high metrics in a baseline benchmark. To accurately simulate real-user clicks, we conducted a large crowdsourcing study of click patterns in an interactive segmentation scenario and collected 475K real-user clicks. Drawing on ideas from saliency tasks, we develop a clickability model that enables sampling clicks, which closely resemble actual user inputs. Using our model and dataset, we propose RClicks benchmark for a comprehensive comparison of existing interactive segmentation methods on realistic clicks. Specifically, we evaluate not only the average quality of methods, but also the robustness w.r.t. click patterns. According to our benchmark, in real-world usage interactive segmentation models may perform worse than it has been reported in the baseline benchmark, and most of the methods are not robust. We believe that RClicks is a significant step towards creating interactive segmentation methods that provide the best user experience in real-world cases.

arxiv情報

著者 Anton Antonov,Andrey Moskalenko,Denis Shepelev,Alexander Krapukhin,Konstantin Soshin,Anton Konushin,Vlad Shakhuro
発行日 2024-10-15 15:55:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.HC, I.4.6 パーマリンク