要約
不正確な監視を使用した弱い監視による視覚認識は、重要かつ困難な学習問題です。
これにより、人によるラベル付けコストが大幅に削減され、従来は複数インスタンスの学習と擬似ラベル付けに依存していました。
この論文では、WeakSAM を紹介し、ビジョン基盤モデル、つまりセグメント エニシング モデル (SAM) に含まれる事前学習された世界の知識を利用することにより、弱教師監視オブジェクト検出 (WSOD) とセグメンテーションを解決します。
WeakSAM は、適応型 PGT 生成と関心領域 (RoI) ドロップ正則化を通じて、従来の WSOD 再トレーニングにおける 2 つの重大な制限、つまり擬似グラウンド トゥルース (PGT) の不完全性とノイズの多い PGT インスタンスに対処します。
また、自動オブジェクト検出とセグメンテーションのためにプロンプトとカテゴリの非認識を必要とするという SAM の問題にも対処します。
私たちの結果は、WeakSAM が WSOD および WSIS ベンチマークにおける以前の最先端の手法を大幅に上回っており、それぞれ平均 7.4% と 8.5% という大きなマージンを持っていることを示しています。
コードは \url{https://github.com/hustvl/WeakSAM} で入手できます。
要約(オリジナル)
Weakly supervised visual recognition using inexact supervision is a critical yet challenging learning problem. It significantly reduces human labeling costs and traditionally relies on multi-instance learning and pseudo-labeling. This paper introduces WeakSAM and solves the weakly-supervised object detection (WSOD) and segmentation by utilizing the pre-learned world knowledge contained in a vision foundation model, i.e., the Segment Anything Model (SAM). WeakSAM addresses two critical limitations in traditional WSOD retraining, i.e., pseudo ground truth (PGT) incompleteness and noisy PGT instances, through adaptive PGT generation and Region of Interest (RoI) drop regularization. It also addresses the SAM’s problems of requiring prompts and category unawareness for automatic object detection and segmentation. Our results indicate that WeakSAM significantly surpasses previous state-of-the-art methods in WSOD and WSIS benchmarks with large margins, i.e. average improvements of 7.4% and 8.5%, respectively. The code is available at \url{https://github.com/hustvl/WeakSAM}.
arxiv情報
著者 | Lianghui Zhu,Junwei Zhou,Yan Liu,Xin Hao,Wenyu Liu,Xinggang Wang |
発行日 | 2024-02-22 18:59:24+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google