要約
この研究では、敵対的生成ネットワーク (GAN) を使用して法線マップを修復する新しい方法を紹介します。
法線マップは、ライトステージから派生することが多く、パフォーマンスのキャプチャにおいて重要ですが、動き(腕、髪、小道具など)によって領域が隠れてしまう場合があります。
修復により、これらの欠落領域が妥当なデータで埋められます。
私たちのアプローチは、蝶ネクタイのようなジェネレーター ネットワークとディスクリミネーター ネットワークを採用し、トレーニング フェーズを交互に行うことで、以前の一般的な画像修復技術を拡張します。
ジェネレーターは、グラウンド トゥルースと一致する画像を合成し、実際の画像と処理された画像を区別するディスクリミネーターを欺くことを目的としています。
ディスクリミネーターは定期的に再トレーニングを受け、処理された画像を識別する能力を強化します。
重要なのは、私たちの方法は法線マップ データの固有の特性に適応するため、損失関数の変更が必要になることです。
ジェネレータのトレーニングには平均二乗誤差損失の代わりにコサイン損失を利用します。
合成データセットであっても、利用可能なトレーニング データが限られているため、入力データの特殊な性質を考慮して、大幅な拡張が必要になります。
これには、法線ベクトルを正確に変更するための適切な画像反転と面内回転が含まれます。
トレーニング全体を通じて、ジェネレーターの平均損失、構造類似性指数測定 (SSIM)、ピーク信号対雑音比 (PSNR) などの重要な指標を、ディスクリミネーターの平均損失と精度とともにモニタリングしました。
私たちの調査結果は、提案されたモデルがパフォーマンス キャプチャ アプリケーションに適した、高品質でリアルなペイントされた法線マップを効果的に生成することを示唆しています。
これらの結果は、より高度なネットワークや法線マップの作成に使用されるソース イメージの修復との比較を含む可能性のある将来の研究の基礎を確立します。
要約(オリジナル)
This study introduces a novel method for inpainting normal maps using a generative adversarial network (GAN). Normal maps, often derived from a lightstage, are crucial in performance capture but can have obscured areas due to movement (e.g., by arms, hair, or props). Inpainting fills these missing areas with plausible data. Our approach extends previous general image inpainting techniques, employing a bow tie-like generator network and a discriminator network, with alternating training phases. The generator aims to synthesize images aligning with the ground truth and deceive the discriminator, which differentiates between real and processed images. Periodically, the discriminator undergoes retraining to enhance its ability to identify processed images. Importantly, our method adapts to the unique characteristics of normal map data, necessitating modifications to the loss function. We utilize a cosine loss instead of mean squared error loss for generator training. Limited training data availability, even with synthetic datasets, demands significant augmentation, considering the specific nature of the input data. This includes appropriate image flipping and in-plane rotations to accurately alter normal vectors. Throughout training, we monitored key metrics such as average loss, Structural Similarity Index Measure (SSIM), and Peak Signal-to-Noise Ratio (PSNR) for the generator, along with average loss and accuracy for the discriminator. Our findings suggest that the proposed model effectively generates high-quality, realistic inpainted normal maps, suitable for performance capture applications. These results establish a foundation for future research, potentially involving more advanced networks and comparisons with inpainting of source images used to create the normal maps.
arxiv情報
著者 | Hancheng Zuo,Bernard Tiddeman |
発行日 | 2024-01-16 03:59:07+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google