要約
隠蔽された物体の完全な形状を認識することは、人間や機械の知能にとって不可欠である。アモーダルセグメンテーションのタスクは、部分的に隠蔽されたオブジェクトの完全なマスクを予測することであるが、ピクセルレベルのグランドトゥルースのアモーダルマスクに注釈を付けるのは時間と労力がかかる。ボックスレベルの教師付きアモーダルセグメンテーションは、グランドトゥルースのバウンディングボックスとインスタンスクラスのみに監督として依存することで、この課題を解決し、ピクセルレベルの徹底的な注釈の必要性を軽減する。しかしながら、現在のボックスレベル手法は、低解像度のマスクと不正確な境界を生成するという限界に直面し、実用的な実世界アプリケーションの要求を満たすことができない。我々は、可視マスクから対応するアモーダルマスクへの有向拡張アプローチを導入することで、この問題に取り組む新しい解決策を提示する。我々のアプローチは、オーバーラップ領域(異なるインスタンスが交差する領域)に基づくハイブリッドなエンド・ツー・エンドネットワークを含む。重複領域と非重複領域に対して、異なる特徴に応じた多様なセグメンテーション戦略を適用する。可視マスクの拡張を導くために、重複領域に対して精巧に設計された接続性損失を導入し、可視マスクとの相関を利用して、正確なアモーダルセグメンテーションを容易にする。いくつかの困難なデータセットを用いて実験を行い、その結果、我々の提案手法が、既存の最先端手法を大きなマージンをもって凌駕できることを示す。
要約(オリジナル)
Perceiving the complete shape of occluded objects is essential for human and machine intelligence. While the amodal segmentation task is to predict the complete mask of partially occluded objects, it is time-consuming and labor-intensive to annotate the pixel-level ground truth amodal masks. Box-level supervised amodal segmentation addresses this challenge by relying solely on ground truth bounding boxes and instance classes as supervision, thereby alleviating the need for exhaustive pixel-level annotations. Nevertheless, current box-level methodologies encounter limitations in generating low-resolution masks and imprecise boundaries, failing to meet the demands of practical real-world applications. We present a novel solution to tackle this problem by introducing a directed expansion approach from visible masks to corresponding amodal masks. Our approach involves a hybrid end-to-end network based on the overlapping region – the area where different instances intersect. Diverse segmentation strategies are applied for overlapping regions and non-overlapping regions according to distinct characteristics. To guide the expansion of visible masks, we introduce an elaborately-designed connectivity loss for overlapping regions, which leverages correlations with visible masks and facilitates accurate amodal segmentation. Experiments are conducted on several challenging datasets and the results show that our proposed method can outperform existing state-of-the-art methods with large margins.
arxiv情報
著者 | Zhaochen Liu,Zhixuan Li,Tingting Jiang |
発行日 | 2024-01-03 09:37:03+00:00 |
arxivサイト | arxiv_id(pdf) |