要約
箱庭監視の下での弱監視インスタンス分割(WSIS)の領域は、近年目覚ましい進歩を見せ、大きな注目を集めている。しかし、ボックス監視の限界は、指定されたターゲットボックス内で前景と背景を区別するための効果的な情報を提供できないことにある。本研究では、インスタンス分割ネットワークの学習プロセスに擬似深度マップを導入することで、この課題に対処する。これらの擬似深度マップは、容易に入手可能な深度予測器を用いて生成され、推論段階では不要である。マスク予測時にネットワークが深度特徴を識別できるようにするため、深度予測レイヤーをマスク予測ヘッドに統合する。この革新的なアプローチにより、ネットワークはマスクと奥行きを同時に予測できるようになり、インスタンスのセグメンテーション処理中に、奥行きに関連するニュアンス情報を捉える能力が強化される。さらに、前景と背景を区別するために、学習プロセスで生成されたマスクを監視として利用する。ハンガリアンアルゴリズムにより各ボックスに最適なマスクを選択する際、計算コスト項目の一つとして奥行きの一貫性を用いる。提案手法は、CityscapesとCOCOデータセットにおいて大幅な改善を達成した。
要約(オリジナル)
The realm of Weakly Supervised Instance Segmentation (WSIS) under box supervision has garnered substantial attention, showcasing remarkable advancements in recent years. However, the limitations of box supervision become apparent in its inability to furnish effective information for distinguishing foreground from background within the specified target box. This research addresses this challenge by introducing pseudo-depth maps into the training process of the instance segmentation network, thereby boosting its performance by capturing depth differences between instances. These pseudo-depth maps are generated using a readily available depth predictor and are not necessary during the inference stage. To enable the network to discern depth features when predicting masks, we integrate a depth prediction layer into the mask prediction head. This innovative approach empowers the network to simultaneously predict masks and depth, enhancing its ability to capture nuanced depth-related information during the instance segmentation process. We further utilize the mask generated in the training process as supervision to distinguish the foreground from the background. When selecting the best mask for each box through the Hungarian algorithm, we use depth consistency as one calculation cost item. The proposed method achieves significant improvements on Cityscapes and COCO dataset.
arxiv情報
著者 | Xinyi Yu,Ling Yan,Pengtao Jiang,Hao Chen,Bo Li,Lin Yuanbo Wu,Linlin Ou |
発行日 | 2024-03-02 14:05:15+00:00 |
arxivサイト | arxiv_id(pdf) |