要約
単一のテスト画像が与えられた場合、馬のような多関節動物の 3D 形状、関節、視点、テクスチャ、照明を推定できる関数を学習する問題を考えます。
MagicPony と呼ばれる新しい方法を提示します。これは、変形のトポロジーに関する最小限の仮定で、オブジェクト カテゴリの野生の単一ビュー画像から純粋にこの関数を学習します。
その中核にあるのは、神経場とメッシュの長所を組み合わせた、連結された形状と外観の暗黙的および明示的な表現です。
モデルがオブジェクトの形状と姿勢を理解できるようにするために、既製の自己監視型ビジョン トランスフォーマーによって取得された知識を抽出し、それを 3D モデルに融合します。
視点推定における一般的な局所最適値を克服するために、追加のトレーニング コストがかからない新しい視点サンプリング スキームをさらに導入します。
以前の作品と比較して、この困難なタスクの量的および質的な大幅な改善を示しています。
このモデルは、実際の画像でのみトレーニングされているにもかかわらず、抽象画やアーティファクトを再構築する際の優れた一般化も示しています。
要約(オリジナル)
We consider the problem of learning a function that can estimate the 3D shape, articulation, viewpoint, texture, and lighting of an articulated animal like a horse, given a single test image. We present a new method, dubbed MagicPony, that learns this function purely from in-the-wild single-view images of the object category, with minimal assumptions about the topology of deformation. At its core is an implicit-explicit representation of articulated shape and appearance, combining the strengths of neural fields and meshes. In order to help the model understand an object’s shape and pose, we distil the knowledge captured by an off-the-shelf self-supervised vision transformer and fuse it into the 3D model. To overcome common local optima in viewpoint estimation, we further introduce a new viewpoint sampling scheme that comes at no added training cost. Compared to prior works, we show significant quantitative and qualitative improvements on this challenging task. The model also demonstrates excellent generalisation in reconstructing abstract drawings and artefacts, despite the fact that it is only trained on real images.
arxiv情報
著者 | Shangzhe Wu,Ruining Li,Tomas Jakab,Christian Rupprecht,Andrea Vedaldi |
発行日 | 2022-11-22 18:59:31+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google