要約
従来、単眼 3D 人間の姿勢推定では、機械学習モデルを使用して、特定の入力画像に対して最も可能性の高い 3D 姿勢を予測していました。
ただし、単一の画像は非常にあいまいである可能性があり、2D-3D リフティング ステップに対して複数のもっともらしいソリューションを誘導するため、過度に信頼できる 3D ポーズ予測子が得られます。
この目的のために、与えられた入力画像に対して複数の仮説を予測する条件付き拡散モデル \emph{DiffPose} を提案します。
同様のアプローチと比較して、私たちの拡散モデルは単純であり、集中的なハイパーパラメーター調整、複雑なネットワーク構造、モード崩壊、および不安定なトレーニングを回避します。
さらに、最初にジョイントごとのヒートマップを介して 2D ジョイント位置の分布を推定し、最初または 2 番目のモーメント統計に基づいてそれらを連続的に近似する、一般的な 2 ステップ アプローチの問題に取り組みます。
ヒートマップをこのように単純化すると、可能性が低いジョイント位置についての有効な情報が削除されるため、ヒートマップを一連の 2D ジョイント候補サンプルとして表すことを提案します。
これらのサンプルから元の分布に関する情報を抽出するために、拡散モデルを調整する \emph{embedding Transformer} を導入します。
実験的に、DiffPose は、単純なポーズの多仮説ポーズ推定の最先端技術をわずかに改善し、非常にあいまいなポーズの大幅なマージンでそれを上回ることを示しています。
要約(オリジナル)
Traditionally, monocular 3D human pose estimation employs a machine learning model to predict the most likely 3D pose for a given input image. However, a single image can be highly ambiguous and induces multiple plausible solutions for the 2D-3D lifting step which results in overly confident 3D pose predictors. To this end, we propose \emph{DiffPose}, a conditional diffusion model, that predicts multiple hypotheses for a given input image. In comparison to similar approaches, our diffusion model is straightforward and avoids intensive hyperparameter tuning, complex network structures, mode collapse, and unstable training. Moreover, we tackle a problem of the common two-step approach that first estimates a distribution of 2D joint locations via joint-wise heatmaps and consecutively approximates them based on first- or second-moment statistics. Since such a simplification of the heatmaps removes valid information about possibly correct, though labeled unlikely, joint locations, we propose to represent the heatmaps as a set of 2D joint candidate samples. To extract information about the original distribution from these samples we introduce our \emph{embedding transformer} that conditions the diffusion model. Experimentally, we show that DiffPose slightly improves upon the state of the art for multi-hypothesis pose estimation for simple poses and outperforms it by a large margin for highly ambiguous poses.
arxiv情報
著者 | Karl Holmquist,Bastian Wandt |
発行日 | 2022-11-29 18:55:13+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google