要約
テンプレートを 3D 人体点群に合わせるのは、アニメーション、再構成、教師あり学習パイプラインの有効化などのタスクにとって非常に重要な長年の問題です。
最近のデータ駆動型の手法では、予測された表面の対応を活用しています。
ただし、さまざまなポーズや分布に対して堅牢ではありません。
対照的に、産業用ソリューションは、高価な手動注釈やマルチビュー キャプチャ システムに依存することがよくあります。
最近、ニューラルフィールドは有望な結果を示していますが、その純粋にデータ駆動型の性質には幾何学的な認識が欠けており、多くの場合、テンプレートの登録に些細な位置ずれが発生します。
この研究では、2 つのソリューションを提案します。LoVD は、ターゲット表面上の局所的な SMPL 頂点に向かう方向を予測する新しい神経場モデルです。
INT は、ニューラル フィールド専用の最初の自己監視型タスクで、テスト時にバックボーンを洗練し、ターゲットのジオメトリを活用します。
これらを、大規模な MoCap データセットでトレーニングされた堅牢な 3D 人体登録パイプラインである INLoVD に結合します。
INLoVD は効率的で (1 分未満で完了)、公開ベンチマークを超えて確実に最先端を達成し、配布外のデータに対して前例のない一般化を提供します。
コードとチェックポイントは \url{url} でリリースされます。
要約(オリジナル)
Aligning a template to 3D human point clouds is a long-standing problem crucial for tasks like animation, reconstruction, and enabling supervised learning pipelines. Recent data-driven methods leverage predicted surface correspondences; however, they are not robust to varied poses or distributions. In contrast, industrial solutions often rely on expensive manual annotations or multi-view capturing systems. Recently, neural fields have shown promising results, but their purely data-driven nature lacks geometric awareness, often resulting in a trivial misalignment of the template registration. In this work, we propose two solutions: LoVD, a novel neural field model that predicts the direction towards the localized SMPL vertices on the target surface; and INT, the first self-supervised task dedicated to neural fields that, at test time, refines the backbone, exploiting the target geometry. We combine them into INLoVD, a robust 3D Human body registration pipeline trained on a large MoCap dataset. INLoVD is efficient (takes less than a minute), solidly achieves the state of the art over public benchmarks, and provides unprecedented generalization on out-of-distribution data. We will release code and checkpoints in \url{url}.
arxiv情報
著者 | Riccardo Marin,Enric Corona,Gerard Pons-Moll |
発行日 | 2023-12-21 16:54:09+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google