AdaptiveClick: Clicks-aware Transformer with Adaptive Focal Loss for Interactive Image Segmentation

要約

タイトル:AdaptiveClick:アダプティブフォーカル損失を用いたクリックに応じたトランスフォーマーによるインタラクティブ画像セグメンテーション

要約:
– インタラクティブ画像セグメンテーション(IIS)は、注釈の時間を短縮する有望な技術として現れています。
– IISの前処理と後処理に対して大きな進歩が見られますが、セグメンテーション品質を著しく損なう相互作用の曖昧さという問題が未だ研究されていません。
– これを解決するために、クリックに応じたアダプティブフォーカス損失を組み込んだAdaptiveClickを紹介します。これは、マスクとピクセルレベルの曖昧さ解決のためのツールを用いて注釈の不一致に対処するものです。
– AdaptiveClickは、IIS用のトランスフォーマーを用いたマスクアダプティブセグメンテーションフレームワークとしては初めてです。
– Clicks-aware Mask-adaptive Transformer Decoder(CAMD)が、クリックと画像特徴との相互作用を強化するための主要な要素です。
– また、AdaptiveClickは、異なる分布を持つハードやイージーサンプルの決定空間におけるピクセルアダプティブな差異を可能にします。
– これは、理論的な保証を持つ一般化されたAdaptive Focal Loss(AFL)を最適化することで実現されます。2つのアダプティブ係数が、ハードピクセルとイージーピクセルの勾配値の比率を制御します。
– 分析により、よく使用されるFocal損失とBCE損失は、提案されたAFL損失の特殊なケースと見なすことができます。
– 幅広い実験結果により、AdaptiveClickが最先端の手法に比べて優れていることが示されています。コードはhttps://github.com/lab206/AdaptiveClickで公開されます。

要約(オリジナル)

Interactive Image Segmentation (IIS) has emerged as a promising technique for decreasing annotation time. Substantial progress has been made in pre- and post-processing for IIS, but the critical issue of interaction ambiguity notably hindering segmentation quality, has been under-researched. To address this, we introduce AdaptiveClick — a clicks-aware transformer incorporating an adaptive focal loss, which tackles annotation inconsistencies with tools for mask- and pixel-level ambiguity resolution. To the best of our knowledge, AdaptiveClick is the first transformer-based, mask-adaptive segmentation framework for IIS. The key ingredient of our method is the Clicks-aware Mask-adaptive Transformer Decoder (CAMD), which enhances the interaction between clicks and image features. Additionally, AdaptiveClick enables pixel-adaptive differentiation of hard and easy samples in the decision space, independent of their varying distributions. This is primarily achieved by optimizing a generalized Adaptive Focal Loss (AFL) with a theoretical guarantee, where two adaptive coefficients control the ratio of gradient values for hard and easy pixels. Our analysis reveals that the commonly used Focal and BCE losses can be considered special cases of the proposed AFL loss. With a plain ViT backbone, extensive experimental results on nine datasets demonstrate the superiority of AdaptiveClick compared to state-of-the-art methods. Code will be publicly available at https://github.com/lab206/AdaptiveClick.

arxiv情報

著者 Jiacheng Lin,Jiajun Chen,Kailun Yang,Alina Roitberg,Siyu Li,Zhiyong Li,Shutao Li
発行日 2023-05-07 13:47:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.AI, cs.CV, eess.IV パーマリンク