ORTexME: Occlusion-Robust Human Shape and Pose via Temporal Average Texture and Mesh Encoding

要約

単眼ビデオからの 3D 人間の形状と姿勢の推定では、限られたラベル付きデータでトレーニングされたモデルは、オクルージョンのあるビデオにうまく一般化できません。これは、実際のビデオでは一般的です。
既製の人間の形状とポーズの方法によって初期化された新しいビュー合成に焦点を当てた最近の人間のニューラル レンダリング アプローチには、人間の初期の形状を修正する可能性があります。
ただし、既存の方法には、オクルージョンの処理が間違っている、不正確な人間のセグメンテーションの影響を受けやすい、正規化されていない不透明度フィールドによる非効率的な損失計算など、いくつかの欠点があります。
これらの問題に対処するために、入力ビデオからの時間情報を利用してオクルージョンされた身体部分をより適切に規則化する、オクルージョンに強い時間的手法である ORTexME を導入します。
当社の ORTexME は NeRF に基づいていますが、NeRF 光線サンプリングの信頼できる領域を決定するために、新しい平均テクスチャ学習アプローチを利用して人の平均的な外観を学習し、平均テクスチャに基づいてマスクを推測します。
さらに、NeRF の不透明度フィールドの更新をガイドしてぼやけやノイズを抑制するために、人体メッシュの使用を提案します。
定量的評価は、私たちの方法が困難な複数人 3DPW データセットで大幅な改善を達成し、1.8 P-MPJPE エラー削減を達成していることを示しています。
SOTA レンダリング ベースのメソッドは失敗し、同じデータセット上でエラーが最大 5.6 まで拡大します。

要約(オリジナル)

In 3D human shape and pose estimation from a monocular video, models trained with limited labeled data cannot generalize well to videos with occlusion, which is common in the wild videos. The recent human neural rendering approaches focusing on novel view synthesis initialized by the off-the-shelf human shape and pose methods have the potential to correct the initial human shape. However, the existing methods have some drawbacks such as, erroneous in handling occlusion, sensitive to inaccurate human segmentation, and ineffective loss computation due to the non-regularized opacity field. To address these problems, we introduce ORTexME, an occlusion-robust temporal method that utilizes temporal information from the input video to better regularize the occluded body parts. While our ORTexME is based on NeRF, to determine the reliable regions for the NeRF ray sampling, we utilize our novel average texture learning approach to learn the average appearance of a person, and to infer a mask based on the average texture. In addition, to guide the opacity-field updates in NeRF to suppress blur and noise, we propose the use of human body mesh. The quantitative evaluation demonstrates that our method achieves significant improvement on the challenging multi-person 3DPW dataset, where our method achieves 1.8 P-MPJPE error reduction. The SOTA rendering-based methods fail and enlarge the error up to 5.6 on the same dataset.

arxiv情報

著者 Yu Cheng,Bo Wang,Robby T. Tan
発行日 2023-09-21 15:50:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク