要約
拡張および仮想現実アプリケーション (XR) への関心が高まるにつれて、画像やビデオからオブジェクトを持ち上げて、関連するさまざまな 3D タスクに適した表現にできるアルゴリズムの需要が高まっています。
XR デバイスとアプリケーションの大規模な展開は、教師あり学習だけに頼ることができないことを意味します。現実世界の無限の種類のオブジェクトのデータを収集して注釈を付けるのは不可能だからです。
オブジェクトの 1 つの画像を形状 (深度と法線)、マテリアル (アルベド、反射率と光沢)、およびグローバル ライティング パラメーターに分解できる、監視が弱い方法を紹介します。
トレーニングの場合、この方法は、トレーニング オブジェクトの大まかな初期形状推定のみに依存して、学習プロセスをブートストラップします。
この形状監視は、たとえば、事前トレーニング済みの深度ネットワークから、またはより一般的には、従来のモーションからの構造パイプラインから取得できます。
私たちの実験では、この方法が 2D 画像を分解された 3D 表現に正常に逆レンダリングし、目に見えないオブジェクト カテゴリに一般化できることを示しています。
現場での評価はグラウンドトゥルースデータが不足しているため困難であるため、定量的な評価を可能にするフォトリアリスティックな合成テストセットも紹介します。
要約(オリジナル)
With increasing focus on augmented and virtual reality applications (XR) comes the demand for algorithms that can lift objects from images and videos into representations that are suitable for a wide variety of related 3D tasks. Large-scale deployment of XR devices and applications means that we cannot solely rely on supervised learning, as collecting and annotating data for the unlimited variety of objects in the real world is infeasible. We present a weakly supervised method that is able to decompose a single image of an object into shape (depth and normals), material (albedo, reflectivity and shininess) and global lighting parameters. For training, the method only relies on a rough initial shape estimate of the training objects to bootstrap the learning process. This shape supervision can come for example from a pretrained depth network or – more generically – from a traditional structure-from-motion pipeline. In our experiments, we show that the method can successfully de-render 2D images into a decomposed 3D representation and generalizes to unseen object categories. Since in-the-wild evaluation is difficult due to the lack of ground truth data, we also introduce a photo-realistic synthetic test set that allows for quantitative evaluation.
arxiv情報
著者 | Felix Wimbauer,Shangzhe Wu,Christian Rupprecht |
発行日 | 2022-09-27 14:36:16+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google