MP-Former: Mask-Piloted Transformer for Image Segmentation

要約

画像セグメンテーション用の Mask2Former でマスクされた注意を改善するマスク パイロット トランスフォーマーを提示します。
この改善は、Mask2Former が連続するデコーダー レイヤー間で一貫性のないマスク予測に悩まされているという私たちの観察に基づいています。これにより、一貫性のない最適化目標とデコーダー クエリの使用率の低下につながります。
この問題に対処するために、マスクパイロットトレーニングアプローチを提案します。これは、マスクされた注意でノイズのあるグラウンドトゥルースマスクをさらにフィードし、モデルをトレーニングして元のマスクを再構築します。
mask-attention で使用される予測マスクと比較して、グラウンド トゥルース マスクはパイロットとして機能し、Mask2Former での不正確なマスク予測の悪影響を効果的に軽減します。
この手法に基づいて、\M は 3 つの画像セグメンテーション タスク (インスタンス、パノプティック、およびセマンティック) すべてで顕著なパフォーマンスの向上を達成し、Cityscapes インスタンスで $+2.3$AP および $+1.6$mIoU を生成し、セマンティック セグメンテーション タスクでは
ResNet-50 バックボーン。
また、私たちの方法はトレーニングを大幅に高速化し、ResNet-50 と Swin-L バックボーンの両方を使用した ADE20K のトレーニング エポック数の半分で Mask2Former を上回りました。
さらに、私たちの方法は、トレーニング中にほとんど計算を導入せず、推論中に余分な計算を導入しません。
コードは \url{https://github.com/IDEA-Research/MP-Former} で公開されます。

要約(オリジナル)

We present a mask-piloted Transformer which improves masked-attention in Mask2Former for image segmentation. The improvement is based on our observation that Mask2Former suffers from inconsistent mask predictions between consecutive decoder layers, which leads to inconsistent optimization goals and low utilization of decoder queries. To address this problem, we propose a mask-piloted training approach, which additionally feeds noised ground-truth masks in masked-attention and trains the model to reconstruct the original ones. Compared with the predicted masks used in mask-attention, the ground-truth masks serve as a pilot and effectively alleviate the negative impact of inaccurate mask predictions in Mask2Former. Based on this technique, our \M achieves a remarkable performance improvement on all three image segmentation tasks (instance, panoptic, and semantic), yielding $+2.3$AP and $+1.6$mIoU on the Cityscapes instance and semantic segmentation tasks with a ResNet-50 backbone. Our method also significantly speeds up the training, outperforming Mask2Former with half of the number of training epochs on ADE20K with both a ResNet-50 and a Swin-L backbones. Moreover, our method only introduces little computation during training and no extra computation during inference. Our code will be released at \url{https://github.com/IDEA-Research/MP-Former}.

arxiv情報

著者 Hao Zhang,Feng Li,Huaizhe Xu,Shijia Huang,Shilong Liu,Lionel M. Ni,Lei Zhang
発行日 2023-03-13 17:57:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク