要約
顔の3D再構成は、コンピュータービジョンで広く注目され、たとえばアニメーション、バーチャルリアリティ、さらにはフォレンジックなど、アプリケーションの多くの分野で使用されています。
この作業は、睡眠研究所の患者を監視することで動機付けられています。
独自の特性により、レーダードメインのセンサーは、光学センサー、つまり電気的に非導電性材料の浸透と光の独立性と比較して利点があります。
レーダー信号のこれらの利点は、新しいアプリケーションのロックを解除し、3D再構成フレームワークの適応が必要です。
レーダー画像からの3D再構成のための新しいモデルベースの方法を提案します。
物理ベースではあるが異なるレーダーレンダラーを使用して、合成レーダー画像のデータセットを生成します。
このデータセットは、CNNベースのエンコーダーをトレーニングするために使用され、3Dの形態可能なフェイスモデルのパラメーターを推定します。
エンコーダーだけで合成データの強力な再構成につながりますが、再構成を分析ごとにモデルベースの自動エンコーダーに拡張します。
これは、オブジェクト固有の微分レーダーレンダラーとして機能するデコーダーでレンダリングプロセスを学習することで有効になります。
その後、両方のネットワークパーツの組み合わせがトレーニングされ、両方を最小限に抑え、パラメーターの喪失、結果の再構築されたレーダー画像の損失を最小限に抑えます。
これは、テスト時に画像の損失で監視されていない自動エンコーダーを微調整することでパラメーターをさらに最適化できる追加の利点につながります。
生成された合成フェイス画像と、4人の個人の3Dグラウンドトゥルースを持つ実際のレーダー画像に関するフレームワークを評価しました。
要約(オリジナル)
The 3D reconstruction of faces gains wide attention in computer vision and is used in many fields of application, for example, animation, virtual reality, and even forensics. This work is motivated by monitoring patients in sleep laboratories. Due to their unique characteristics, sensors from the radar domain have advantages compared to optical sensors, namely penetration of electrically non-conductive materials and independence of light. These advantages of radar signals unlock new applications and require adaptation of 3D reconstruction frameworks. We propose a novel model-based method for 3D reconstruction from radar images. We generate a dataset of synthetic radar images with a physics-based but non-differentiable radar renderer. This dataset is used to train a CNN-based encoder to estimate the parameters of a 3D morphable face model. Whilst the encoder alone already leads to strong reconstructions of synthetic data, we extend our reconstruction in an Analysis-by-Synthesis fashion to a model-based autoencoder. This is enabled by learning the rendering process in the decoder, which acts as an object-specific differentiable radar renderer. Subsequently, the combination of both network parts is trained to minimize both, the loss of the parameters and the loss of the resulting reconstructed radar image. This leads to the additional benefit, that at test time the parameters can be further optimized by finetuning the autoencoder unsupervised on the image loss. We evaluated our framework on generated synthetic face images as well as on real radar images with 3D ground truth of four individuals.
arxiv情報
著者 | Valentin Braeutigam,Vanessa Wirth,Ingrid Ullmann,Christian Schüßler,Martin Vossiek,Matthias Berking,Bernhard Egger |
発行日 | 2025-02-05 12:26:37+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google