ShapeFormer: Shape Prior Visible-to-Amodal Transformer-based Amodal Instance Segmentation

要約

アモーダル インスタンス セグメンテーション (AIS) は、画像内のオブジェクトの可視部分と遮蔽部分の両方を予測する必要があるため、困難なタスクを伴います。
既存の AIS 手法は双方向のアプローチに依存しており、アモーダル フィーチャから可視フィーチャへの移行 (アモーダルから可視へ) と可視フィーチャからアモーダル フィーチャへの移行 (可視からアモーダルへ) の両方を包含します。
私たちの観察では、アモーダルから可視へのアモーダル特徴の利用は、可視表示では表示されない遮蔽/非表示セグメントの追加情報により、可視特徴を混乱させる可能性があることを示しています。
その結果、これにより、その後の可視からアモーダルへの移行中に可視特徴の品質が損なわれました。
この問題に取り組むために、可視からアモーダルへの遷移を備えた分離された Transformer ベースのモデルである ShapeFormer を導入します。
これにより、出力セグメンテーション間の明示的な関係が容易になり、モーダルから可視への遷移の必要性が回避されます。
ShapeFormer は 3 つの主要なモジュールで構成されます: (i) オクルージョンを認識して可視セグメンテーションを予測するための Visible-Occluding Mask Head、(ii) アモーダルおよびオクルージョンされたマスクを予測するための Shape-Prior Amodal Mask Head、および (iii) カテゴリ固有の Shape Prior Retriever の目的
形状の事前知識を提供します。
さまざまな AIS ベンチマークにわたる包括的な実験と広範なアブレーション研究により、ShapeFormer の有効性が実証されています。
コードは \url{https://github.com/UARK-AICV/ShapeFormer} から入手できます。

要約(オリジナル)

Amodal Instance Segmentation (AIS) presents a challenging task as it involves predicting both visible and occluded parts of objects within images. Existing AIS methods rely on a bidirectional approach, encompassing both the transition from amodal features to visible features (amodal-to-visible) and from visible features to amodal features (visible-to-amodal). Our observation shows that the utilization of amodal features through the amodal-to-visible can confuse the visible features due to the extra information of occluded/hidden segments not presented in visible display. Consequently, this compromised quality of visible features during the subsequent visible-to-amodal transition. To tackle this issue, we introduce ShapeFormer, a decoupled Transformer-based model with a visible-to-amodal transition. It facilitates the explicit relationship between output segmentations and avoids the need for amodal-to-visible transitions. ShapeFormer comprises three key modules: (i) Visible-Occluding Mask Head for predicting visible segmentation with occlusion awareness, (ii) Shape-Prior Amodal Mask Head for predicting amodal and occluded masks, and (iii) Category-Specific Shape Prior Retriever aims to provide shape prior knowledge. Comprehensive experiments and extensive ablation studies across various AIS benchmarks demonstrate the effectiveness of our ShapeFormer. The code is available at: \url{https://github.com/UARK-AICV/ShapeFormer}

arxiv情報

著者 Minh Tran,Winston Bounsavy,Khoa Vo,Anh Nguyen,Tri Nguyen,Ngan Le
発行日 2024-04-17 16:46:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク