PoseGen: Learning to Generate 3D Human Pose Dataset with NeRF

要約

この論文では、Neural Radiance Fields (NeRF) を使用して 3D 人間のポーズ データセットを生成するためのエンドツーエンドのフレームワークを提案します。
一般に公開データセットは、人間の 3D 姿勢データの収集にリソースを大量に消費する性質があるため、人間の姿勢やカメラの視点の多様性が限られています。
その結果、公開データセットでトレーニングされた姿勢推定器は、配布されていない未確認のサンプルに適用すると、パフォーマンスが大幅に低下します。
以前の研究では、2D-3D ポーズのペアを生成したり、大量のランダム データをレンダリングしたりすることによって、公開データセットを増強することが提案されていました。
このようなアプローチでは、画像のレンダリングが見落とされたり、事前トレーニングされたモデルに対して最適ではないデータセットが生成されたりします。
ここでは、与えられた事前トレーニングされた姿勢推定器からのフィードバック損失を伴うデータセット (人間の 3D ポーズと画像) を生成することを学習する PoseGen を提案します。
従来技術とは対照的に、生成されたデータは、事前トレーニングされたモデルの堅牢性を向上させるために最適化されています。
PoseGen の目的は、事前トレーニングされた特定のモデルの予測誤差を最大化するデータの分布を学習することです。
学習済みデータの分布には事前トレーニング済みモデルの OOD サンプルが含まれているため、事前トレーニング済みモデルをさらに微調整するためにそのような分布からデータをサンプリングすると、モデルの一般化可能性が向上します。
これは、3D 人物データ生成のための NeRF を提案した最初の研究です。
NeRF はデータ駆動型であり、人間の 3D スキャンを必要としません。
したがって、データ生成に NeRF を使用することは、ユーザー固有のデータを便利に生成するための新しい方向性です。
私たちの広範な実験により、提案された PoseGen が 4 つのデータセット上の 2 つのベースライン モデル (SPIN と HybrIK) を平均 6% の相対改善で改善することが示されました。

要約(オリジナル)

This paper proposes an end-to-end framework for generating 3D human pose datasets using Neural Radiance Fields (NeRF). Public datasets generally have limited diversity in terms of human poses and camera viewpoints, largely due to the resource-intensive nature of collecting 3D human pose data. As a result, pose estimators trained on public datasets significantly underperform when applied to unseen out-of-distribution samples. Previous works proposed augmenting public datasets by generating 2D-3D pose pairs or rendering a large amount of random data. Such approaches either overlook image rendering or result in suboptimal datasets for pre-trained models. Here we propose PoseGen, which learns to generate a dataset (human 3D poses and images) with a feedback loss from a given pre-trained pose estimator. In contrast to prior art, our generated data is optimized to improve the robustness of the pre-trained model. The objective of PoseGen is to learn a distribution of data that maximizes the prediction error of a given pre-trained model. As the learned data distribution contains OOD samples of the pre-trained model, sampling data from such a distribution for further fine-tuning a pre-trained model improves the generalizability of the model. This is the first work that proposes NeRFs for 3D human data generation. NeRFs are data-driven and do not require 3D scans of humans. Therefore, using NeRF for data generation is a new direction for convenient user-specific data generation. Our extensive experiments show that the proposed PoseGen improves two baseline models (SPIN and HybrIK) on four datasets with an average 6% relative improvement.

arxiv情報

著者 Mohsen Gholami,Rabab Ward,Z. Jane Wang
発行日 2023-12-22 18:50:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク