Sequential Amodal Segmentation via Cumulative Occlusion Learning

要約

単一画像の 3D コンテキストを完全に理解するには、視覚システムがオブジェクトの可視領域と遮蔽領域の両方をセグメント化し、そのオクルージョン順序を識別できなければなりません。
理想的には、システムはあらゆるオブジェクトを処理でき、特にロボット アプリケーションでは、限られたオブジェクト クラスのセットのセグメント化に制限されないようにする必要があります。
このニーズに対処するために、不確実なカテゴリを持つオブジェクトの順次アモーダル セグメンテーション用に設計された累積オクルージョン学習を備えた拡散モデルを導入します。
このモデルは、拡散中に累積マスク戦略を使用して予測を繰り返し改良し、目に見えない領域の不確実性を効果的に捉え、遮蔽されたオブジェクトの形状と遮蔽順序の複雑な分布を巧みに再現します。
これは、人間のアモーダル知覚の能力、つまり、オブジェクト間の空間的順序を解読し、密にレイヤー化された視覚シーンで遮られたオブジェクトの完全な輪郭を正確に予測する能力に似ています。
3 つのモーダル データセットにわたる実験結果は、私たちの手法が確立されたベースラインを上回るパフォーマンスを示していることを示しています。

要約(オリジナル)

To fully understand the 3D context of a single image, a visual system must be able to segment both the visible and occluded regions of objects, while discerning their occlusion order. Ideally, the system should be able to handle any object and not be restricted to segmenting a limited set of object classes, especially in robotic applications. Addressing this need, we introduce a diffusion model with cumulative occlusion learning designed for sequential amodal segmentation of objects with uncertain categories. This model iteratively refines the prediction using the cumulative mask strategy during diffusion, effectively capturing the uncertainty of invisible regions and adeptly reproducing the complex distribution of shapes and occlusion orders of occluded objects. It is akin to the human capability for amodal perception, i.e., to decipher the spatial ordering among objects and accurately predict complete contours for occluded objects in densely layered visual scenes. Experimental results across three amodal datasets show that our method outperforms established baselines.

arxiv情報

著者 Jiayang Ao,Qiuhong Ke,Krista A. Ehinger
発行日 2024-05-09 14:17:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク