POCO: 3D Pose and Shape Estimation with Confidence

要約

画像からの 3D 人間の姿勢と形状 (HPS) の回帰精度はますます高まっています。
これにより、結果が人間の動作認識や 3D グラフィックスなどの下流タスクに役立ちます。
ただし、完璧なリグレッサーは存在せず、精度はあいまいな画像証拠や、トレーニング中に見えないポーズや外観によって影響を受ける可能性があります。
ただし、現在の HPS リグレッサーのほとんどは出力の信頼性を報告しません。これは、下流のタスクが正確な推定値と不正確な推定値を区別できないことを意味します。
これに対処するために、私たちは POCO を開発しました。これは、単一のフィードフォワード パスで 3D 人体だけでなく自信も推定するように HPS リグレッサーをトレーニングするための新しいフレームワークです。
具体的には、POCO は 3D 体の姿勢とサンプルごとの分散の両方を推定します。
重要なアイデアは、ポーズ再構成の品質と高度に相関する不確実性を回帰するためのデュアル コンディショニング ストラテジー (DCS) を導入することです。
POCO フレームワークは任意の HPS リグレッサーに適用でき、ここでは HMR、PARE、および CLIFF を変更して評価します。
いずれの場合も、不確実性について推論するようにネットワークをトレーニングすると、ネットワークが 3D 姿勢をより正確に推定する方法を学習するのに役立ちます。
これは私たちの目標ではありませんでしたが、改善は控えめではありますが一貫しています。
私たちの主な動機は、下流のタスクの不確実性の推定値を提供することです。
これを 2 つの方法で実証します。 (1) 信頼度推定値を使用して HPS トレーニングをブートストラップします。
ラベルのない画像データが与えられた場合、POCO でトレーニングされたリグレッサーの信頼できる推定値を疑似グラウンド トゥルースとして採用します。
この自動的にキュレーションされたデータを使用して再トレーニングすると、精度が向上します。
(2) 不確実なフレーム (オクルージョンなどによる) を自動的に識別し、信頼できるフレームからこれらを修復することで、ビデオの姿勢推定における不確実性を利用します。
コードとモデルは、https://poco.is.tue.mpg.de で研究に利用できます。

要約(オリジナル)

The regression of 3D Human Pose and Shape (HPS) from an image is becoming increasingly accurate. This makes the results useful for downstream tasks like human action recognition or 3D graphics. Yet, no regressor is perfect, and accuracy can be affected by ambiguous image evidence or by poses and appearance that are unseen during training. Most current HPS regressors, however, do not report the confidence of their outputs, meaning that downstream tasks cannot differentiate accurate estimates from inaccurate ones. To address this, we develop POCO, a novel framework for training HPS regressors to estimate not only a 3D human body, but also their confidence, in a single feed-forward pass. Specifically, POCO estimates both the 3D body pose and a per-sample variance. The key idea is to introduce a Dual Conditioning Strategy (DCS) for regressing uncertainty that is highly correlated to pose reconstruction quality. The POCO framework can be applied to any HPS regressor and here we evaluate it by modifying HMR, PARE, and CLIFF. In all cases, training the network to reason about uncertainty helps it learn to more accurately estimate 3D pose. While this was not our goal, the improvement is modest but consistent. Our main motivation is to provide uncertainty estimates for downstream tasks; we demonstrate this in two ways: (1) We use the confidence estimates to bootstrap HPS training. Given unlabelled image data, we take the confident estimates of a POCO-trained regressor as pseudo ground truth. Retraining with this automatically-curated data improves accuracy. (2) We exploit uncertainty in video pose estimation by automatically identifying uncertain frames (e.g. due to occlusion) and inpainting these from confident frames. Code and models will be available for research at https://poco.is.tue.mpg.de.

arxiv情報

著者 Sai Kumar Dwivedi,Cordelia Schmid,Hongwei Yi,Michael J. Black,Dimitrios Tzionas
発行日 2023-08-24 17:59:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク