pix2gestalt: Amodal Segmentation by Synthesizing Wholes

要約

ゼロショット アモーダル セグメンテーションのフレームワークである pix2gestalt を紹介します。これは、オクルージョンの背後で部分的にしか見えないオブジェクト全体の形状と外観を推定することを学習します。
大規模な拡散モデルを活用し、その表現をこのタスクに移すことで、芸術などの自然および物理的な事前条件を破る例を含む、困難なゼロショットのケースでオブジェクト全体を再構成するための条件付き拡散モデルを学習します。
トレーニング データとして、オクルージョンされたオブジェクトと対応するオブジェクト全体のペアを含む、合成的に厳選されたデータセットを使用します。
実験では、私たちのアプローチが確立されたベンチマークの教師付きベースラインを上回るパフォーマンスを示しています。
さらに、私たちのモデルを使用して、オクルージョンが存在する場合の既存の物体認識および 3D 再構成方法のパフォーマンスを大幅に向上させることができます。

要約(オリジナル)

We introduce pix2gestalt, a framework for zero-shot amodal segmentation, which learns to estimate the shape and appearance of whole objects that are only partially visible behind occlusions. By capitalizing on large-scale diffusion models and transferring their representations to this task, we learn a conditional diffusion model for reconstructing whole objects in challenging zero-shot cases, including examples that break natural and physical priors, such as art. As training data, we use a synthetically curated dataset containing occluded objects paired with their whole counterparts. Experiments show that our approach outperforms supervised baselines on established benchmarks. Our model can furthermore be used to significantly improve the performance of existing object recognition and 3D reconstruction methods in the presence of occlusions.

arxiv情報

著者 Ege Ozguroglu,Ruoshi Liu,Dídac Surís,Dian Chen,Achal Dave,Pavel Tokmakov,Carl Vondrick
発行日 2024-01-25 18:57:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク