Vision Transformers Are Good Mask Auto-Labelers

要約

我々は、ボックスアノテーションのみを用いたインスタンスセグメンテーションのための、高品質TransformerベースのマスクオートラベリングフレームワークであるMask Auto-Labeler (MAL)を提案する。MALは箱型に切り取られた画像を入力とし、条件付きでそのマスクの擬似ラベルを生成する。我々はVision Transformerが優れたマスクの自動ラベル付け器であることを示す。本手法は、マスクの品質に関して、自動ラベリングと人間のアノテーションの間のギャップを大幅に減少させる。MALで生成されたマスクを用いて学習したインスタンス分割モデルは、完全教師ありモデルの性能とほぼ一致し、完全教師ありモデルの97.4%までの性能を保持することができる。最良のモデルは、COCOインスタンスセグメンテーション(test-dev 2017)で44.1%のmAPを達成し、最先端のボックス教師あり手法を大幅に上回る性能を発揮する。定性的な結果では、MALによって生成されたマスクは、場合によっては人間のアノテーションよりも優れていることが示されています。

要約(オリジナル)

We propose Mask Auto-Labeler (MAL), a high-quality Transformer-based mask auto-labeling framework for instance segmentation using only box annotations. MAL takes box-cropped images as inputs and conditionally generates their mask pseudo-labels.We show that Vision Transformers are good mask auto-labelers. Our method significantly reduces the gap between auto-labeling and human annotation regarding mask quality. Instance segmentation models trained using the MAL-generated masks can nearly match the performance of their fully-supervised counterparts, retaining up to 97.4\% performance of fully supervised models. The best model achieves 44.1\% mAP on COCO instance segmentation (test-dev 2017), outperforming state-of-the-art box-supervised methods by significant margins. Qualitative results indicate that masks produced by MAL are, in some cases, even better than human annotations.

arxiv情報

著者 Shiyi Lan,Xitong Yang,Zhiding Yu,Zuxuan Wu,Jose M. Alvarez,Anima Anandkumar
発行日 2023-01-10 18:59:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV, cs.LG, cs.MM パーマリンク