Amodal Ground Truth and Completion in the Wild

要約

この論文では、モーダル画像セグメンテーション、つまり可視部分と不可視 (遮蔽された) 部分の両方を含むオブジェクト セグメンテーション マスク全体を予測することを研究します。
以前の研究では、実際の画像上のアモーダル セグメンテーションのグラウンド トゥルースは通常、手動のアノタトンによって予測されるため、主観的なものでした。
対照的に、私たちは 3D データを使用して自動パイプラインを確立し、実際の画像内の部分的に遮蔽されたオブジェクトに対する本物のグラウンド トゥルース アモーダル マスクを決定します。
このパイプラインは、さまざまなオブジェクト カテゴリとラベルで構成されるアモーダル完了評価ベンチマーク MP3D-Amodal を構築するために使用されます。
実際のアモーダル補完タスクをより適切に処理するために、2 つのアーキテクチャ バリアントを検討します。最初にオクルーダーを推論し、次にアモーダル マスク補完を行う 2 段階モデル​​です。
そして、多くのカテゴリにわたるアモーダル セグメンテーションに安定拡散の表現力を活用する 1 段階モデル​​。
付加機能なしで、私たちのメソッドは、COCOA や新しい MP3D-Amodal データセットを含む、多種多様なオブジェクトをカバーする Amodal セグメンテーション データセットで新しい最先端のパフォーマンスを達成します。
データセット、モデル、コードは https://www.robots.ox.ac.uk/~vgg/research/amodal/ で入手できます。

要約(オリジナル)

This paper studies amodal image segmentation: predicting entire object segmentation masks including both visible and invisible (occluded) parts. In previous work, the amodal segmentation ground truth on real images is usually predicted by manual annotaton and thus is subjective. In contrast, we use 3D data to establish an automatic pipeline to determine authentic ground truth amodal masks for partially occluded objects in real images. This pipeline is used to construct an amodal completion evaluation benchmark, MP3D-Amodal, consisting of a variety of object categories and labels. To better handle the amodal completion task in the wild, we explore two architecture variants: a two-stage model that first infers the occluder, followed by amodal mask completion; and a one-stage model that exploits the representation power of Stable Diffusion for amodal segmentation across many categories. Without bells and whistles, our method achieves a new state-of-the-art performance on Amodal segmentation datasets that cover a large variety of objects, including COCOA and our new MP3D-Amodal dataset. The dataset, model, and code are available at https://www.robots.ox.ac.uk/~vgg/research/amodal/.

arxiv情報

著者 Guanqi Zhan,Chuanxia Zheng,Weidi Xie,Andrew Zisserman
発行日 2024-04-29 17:35:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク