要約
我々は、ボックスアノテーションのみを用いたインスタンスセグメンテーションのための、高品質TransformerベースのマスクオートラベリングフレームワークであるMask Auto-Labeler (MAL)を提案する。MALは箱型に切り取られた画像を入力とし、条件付きでそのマスクの擬似ラベルを生成する。我々はVision Transformerが優れたマスクの自動ラベル付け器であることを示す。本手法は、マスクの品質に関して、自動ラベリングと人間のアノテーションの間のギャップを大幅に減少させる。MALで生成されたマスクを用いて学習したインスタンス分割モデルは、完全教師ありモデルの性能とほぼ一致し、完全教師ありモデルの97.4%までの性能を保持することができる。最良のモデルは、COCOインスタンスセグメンテーション(test-dev 2017)で44.1%のmAPを達成し、最先端のボックス教師あり手法を大幅に上回る性能を発揮する。定性的な結果では、MALによって生成されたマスクは、場合によっては人間のアノテーションよりも優れていることが示されています。
要約(オリジナル)
We propose Mask Auto-Labeler (MAL), a high-quality Transformer-based mask auto-labeling framework for instance segmentation using only box annotations. MAL takes box-cropped images as inputs and conditionally generates their mask pseudo-labels.We show that Vision Transformers are good mask auto-labelers. Our method significantly reduces the gap between auto-labeling and human annotation regarding mask quality. Instance segmentation models trained using the MAL-generated masks can nearly match the performance of their fully-supervised counterparts, retaining up to 97.4\% performance of fully supervised models. The best model achieves 44.1\% mAP on COCO instance segmentation (test-dev 2017), outperforming state-of-the-art box-supervised methods by significant margins. Qualitative results indicate that masks produced by MAL are, in some cases, even better than human annotations.
arxiv情報
著者 | Shiyi Lan,Xitong Yang,Zhiding Yu,Zuxuan Wu,Jose M. Alvarez,Anima Anandkumar |
発行日 | 2023-01-10 18:59:00+00:00 |
arxivサイト | arxiv_id(pdf) |