P2Object: Single Point Supervised Object Detection and Instance Segmentation

要約

シングルポイント監督を使用したオブジェクト認識は、最近の注目を集めています。
ただし、完全に監視されたアルゴリズムと比較したパフォーマンスのギャップは大きなままです。
以前の作品は、クラスアグリスティック\ textbf {\ textIT {In a Image}}}}を生成し、混合候補を単一のバッグとして扱い、複数のインスタンス学習(MIL)に大きな負担をかけました。
このホワイトペーパーでは、アンカーのように提案を生成し、粗から金融のパラダイムで提案を改良することにより、バランスの取れた\ textBf {\ textBf {instance-level Proposal Bags}}を構築するポイントツーボックスネットワーク(P2BNET)を紹介します。
さらなる調査を通じて、画像レベルまたはインスタンスレベルのいずれかで提案の袋が個別のボックスサンプリングに確立されていることがわかります。
これにより、擬似ボックスの推定が最適下溶液に導かれ、オブジェクトの境界が切り捨てられたり、背景が過度に包含されたりします。
したがって、離散から連続した最適化のシリーズ調査を実施し、P2BNET ++とポイントツーマスクネットワーク(P2MNET)を生成します。
P2BNET ++は、空間的手がかりをよりよく利用することにより、ほぼ継続的な提案サンプリング戦略を実施します。
P2MNETは、ピクセルの予測を支援するために低レベルの画像情報をさらに導入し、推定ボックスの制限を緩和するために境界自己予測が設計されています。
連続Object-Aware \ textBf {\ textit {pixel-level Perception}}の恩恵を受けると、p2mnetはより正確な境界ボックスを生成し、セグメンテーションタスクに一般化できます。
私たちの方法は、COCO、VOC、SBD、およびCityscapesの平均平均精度の観点から、以前の方法を主に上回り、完全に監視されたタスクと比較してパフォーマンスギャップを埋める大きな可能性を示しています。

要約(オリジナル)

Object recognition using single-point supervision has attracted increasing attention recently. However, the performance gap compared with fully-supervised algorithms remains large. Previous works generated class-agnostic \textbf{\textit{proposals in an image}} offline and then treated mixed candidates as a single bag, putting a huge burden on multiple instance learning (MIL). In this paper, we introduce Point-to-Box Network (P2BNet), which constructs balanced \textbf{\textit{instance-level proposal bags}} by generating proposals in an anchor-like way and refining the proposals in a coarse-to-fine paradigm. Through further research, we find that the bag of proposals, either at the image level or the instance level, is established on discrete box sampling. This leads the pseudo box estimation into a sub-optimal solution, resulting in the truncation of object boundaries or the excessive inclusion of background. Hence, we conduct a series exploration of discrete-to-continuous optimization, yielding P2BNet++ and Point-to-Mask Network (P2MNet). P2BNet++ conducts an approximately continuous proposal sampling strategy by better utilizing spatial clues. P2MNet further introduces low-level image information to assist in pixel prediction, and a boundary self-prediction is designed to relieve the limitation of the estimated boxes. Benefiting from the continuous object-aware \textbf{\textit{pixel-level perception}}, P2MNet can generate more precise bounding boxes and generalize to segmentation tasks. Our method largely surpasses the previous methods in terms of the mean average precision on COCO, VOC, SBD, and Cityscapes, demonstrating great potential to bridge the performance gap compared with fully supervised tasks.

arxiv情報

著者 Pengfei Chen,Xuehui Yu,Xumeng Han,Kuiran Wang,Guorong Li,Lingxi Xie,Zhenjun Han,Jianbin Jiao
発行日 2025-04-10 14:51:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク