要約
インタラクティブなセグメンテーションは、ユーザーによるクリックに基づいて画像から関心のあるオブジェクトを抽出することを目的としています。
実際のアプリケーションでは、同じターゲット オブジェクトを特徴とする一連の画像をセグメント化する必要があることがよくあります。
しかし、既存の方法は通常、一度に 1 つの画像を処理し、画像の連続的な性質を考慮していません。
この制限を克服するために、我々はシーケンス プロンプト トランスフォーマー (SPT) と呼ばれる新しい方法を提案します。これは、インタラクティブ セグメンテーションに連続画像情報を利用する最初の方法です。
私たちのモデルは 2 つの重要なコンポーネントで構成されています: (1) 画像、クリック、マスクのシーケンスから情報を取得して精度を向上させるシーケンス プロンプト トランスフォーマー (SPT)。
(2) Top-k プロンプト選択 (TPS) は、セグメンテーション効果をさらに高めるために SPT の正確なプロンプトを選択します。
さらに、モデルのパフォーマンスをより適切に評価するために、ADE20K-Seq ベンチマークを作成します。
複数のベンチマーク データセットでアプローチを評価し、すべてのデータセットにわたってモデルが最先端の手法を上回っていることを示します。
要約(オリジナル)
Interactive segmentation aims to extract objects of interest from an image based on user-provided clicks. In real-world applications, there is often a need to segment a series of images featuring the same target object. However, existing methods typically process one image at a time, failing to consider the sequential nature of the images. To overcome this limitation, we propose a novel method called Sequence Prompt Transformer (SPT), the first to utilize sequential image information for interactive segmentation. Our model comprises two key components: (1) Sequence Prompt Transformer (SPT) for acquiring information from sequence of images, clicks and masks to improve accurate. (2) Top-k Prompt Selection (TPS) selects precise prompts for SPT to further enhance the segmentation effect. Additionally, we create the ADE20K-Seq benchmark to better evaluate model performance. We evaluate our approach on multiple benchmark datasets and show that our model surpasses state-of-the-art methods across all datasets.
arxiv情報
著者 | Senlin Cheng,Haopeng Sun |
発行日 | 2024-12-13 15:49:18+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google