要約
我々は、意味的に類似したオブジェクトをキャプチャする 2D 画像の 3D を意識した位置合わせの新しい問題である 3D Congealing を提案します。
ラベルのないインターネット画像のコレクションが与えられた場合、私たちの目標は、入力から共有された意味論的な部分を関連付け、2D 画像からの知識を共有の 3D 標準空間に集約することです。
形状テンプレート、ポーズ、カメラ パラメーターを前提とせずにタスクに取り組む一般的なフレームワークを紹介します。
その中心となるのは、幾何学的な情報と意味論的な情報をカプセル化する標準的な 3D 表現です。
このフレームワークは、各入力画像のポーズとともに正準表現、および形状の一致を考慮して 2D ピクセル座標を 3D 正準フレームにワープする画像ごとの座標マップを最適化します。
最適化手順では、事前トレーニングされた画像生成モデルからの事前知識と入力画像からの意味情報を融合します。
前者は、この制約が不十分なタスクに対する強力な知識のガイダンスを提供し、後者は、事前トレーニングされたモデルからのトレーニング データのバイアスを軽減するために必要な情報を提供します。
私たちのフレームワークは、対応マッチング、姿勢推定、画像編集などのさまざまなタスクに使用でき、困難な照明条件下での実世界の画像データセットや自然のオンライン画像コレクションで優れた結果を達成します。
要約(オリジナル)
We propose 3D Congealing, a novel problem of 3D-aware alignment for 2D images capturing semantically similar objects. Given a collection of unlabeled Internet images, our goal is to associate the shared semantic parts from the inputs and aggregate the knowledge from 2D images to a shared 3D canonical space. We introduce a general framework that tackles the task without assuming shape templates, poses, or any camera parameters. At its core is a canonical 3D representation that encapsulates geometric and semantic information. The framework optimizes for the canonical representation together with the pose for each input image, and a per-image coordinate map that warps 2D pixel coordinates to the 3D canonical frame to account for the shape matching. The optimization procedure fuses prior knowledge from a pre-trained image generative model and semantic information from input images. The former provides strong knowledge guidance for this under-constraint task, while the latter provides the necessary information to mitigate the training data bias from the pre-trained model. Our framework can be used for various tasks such as correspondence matching, pose estimation, and image editing, achieving strong results on real-world image datasets under challenging illumination conditions and on in-the-wild online image collections.
arxiv情報
著者 | Yunzhi Zhang,Zizhang Li,Amit Raj,Andreas Engelhardt,Yuanzhen Li,Tingbo Hou,Jiajun Wu,Varun Jampani |
発行日 | 2024-04-02 17:32:12+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google