InterFormer: Real-time Interactive Image Segmentation

要約

タイトル:InterFormer:リアルタイムでインタラクティブな画像のセグメンテーション

要約:

– インタラクティブな画像のセグメンテーションは、アノテーターがセグメンテーションタスクのピクセルレベルの注釈付けを効率的に実行できるようにします。
– 既存のインタラクティブセグメンテーションパイプラインは、次の2つの問題のためにインタラクティブなモデルの効率的な計算に苦しんでいます。
– 1つ目は、アノテーターの後のクリックは、モデルのアノテーターの前のクリックのフィードバックに基づいています。このシリアルインタラクションは、モデルの並列処理能力を利用できません。
– 2つ目は、モデルが画像、アノテーターの現在のクリック、およびモデルのアノテーターの前のクリックのフィードバックを各ステップで繰り返し処理しなければならないため、冗長な計算を引き起こすことです。
– 効率的な計算のために、私たちはInterFormerという方法を提案しています。InterFormerは、既存のプロセスから、計算上時間がかかる部分、つまり画像処理を抽出し、前処理します。
– 具体的には、InterFormerは、高性能デバイス上で大規模なVision Transformer(ViT)を使用して画像を並列に前処理し、インタラクティブセグメンテーションには、軽量なモジュールであるInteractive Multi-Head Self-Attention(I-MSA)を使用します。
– さらに、低電力デバイス上でのI-MSAモジュールの展開により、インタラクティブなセグメンテーションの実用的なアプリケーションが拡張されます。
– I-MSAモジュールは、前処理された特徴を使用してアノテーターの入力に効率的に応答し、リアルタイムの高品質なインタラクティブセグメンテーションをCPU専用デバイスで実現します。
– いくつかのデータセットでの実験は、InterFormerの効果を示しており、以前のインタラクティブセグメンテーションモデルよりも計算効率とセグメンテーション品質の面で優れており、CPU専用デバイスでリアルタイムの高品質なインタラクティブセグメンテーションを実現しています。

要約(オリジナル)

Interactive image segmentation enables annotators to efficiently perform pixel-level annotation for segmentation tasks. However, the existing interactive segmentation pipeline suffers from inefficient computations of interactive models because of the following two issues. First, annotators’ later click is based on models’ feedback of annotators’ former click. This serial interaction is unable to utilize model’s parallelism capabilities. Second, the model has to repeatedly process the image, the annotator’s current click, and the model’s feedback of the annotator’s former clicks at each step of interaction, resulting in redundant computations. For efficient computation, we propose a method named InterFormer that follows a new pipeline to address these issues. InterFormer extracts and preprocesses the computationally time-consuming part i.e. image processing from the existing process. Specifically, InterFormer employs a large vision transformer (ViT) on high-performance devices to preprocess images in parallel, and then uses a lightweight module called interactive multi-head self attention (I-MSA) for interactive segmentation. Furthermore, the I-MSA module’s deployment on low-power devices extends the practical application of interactive segmentation. The I-MSA module utilizes the preprocessed features to efficiently response to the annotator inputs in real-time. The experiments on several datasets demonstrate the effectiveness of InterFormer, which outperforms previous interactive segmentation models in terms of computational efficiency and segmentation quality, achieve real-time high-quality interactive segmentation on CPU-only devices.

arxiv情報

著者 You Huang,Hao Yang,Ke Sun,Shengchuan Zhang,Guannan Jiang,Rongrong Ji,Liujuan Cao
発行日 2023-04-06 08:57:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CV, cs.HC パーマリンク