Generalized Pose Space Embeddings for Training In-the-Wild using Anaylis-by-Synthesis

要約

最新の姿勢推定モデルは、手動でラベル付けされた大規模なデータセットでトレーニングされますが、これはコストがかかり、現実世界の人間の姿勢や外観を完全にはカバーしていない可能性があります。
ニューラル レンダリングの進歩により、合成による分析と、ポーズを予測するだけでなくレンダリングする機能が魅力的なフレームワークになりつつあり、大規模な手動ラベル付け作業の必要性が軽減される可能性があります。
最近の研究ではこのアプローチの実現可能性が示されていますが、単純化された中間スケルトン表現により多くの反転が予測に認められ、結果として精度が低くなり、3 次元位置決めなどの下流の知識の取得が妨げられます。
この問題は、ポーズ (左右) のセマンティクスをキャプチャできる、より表現力豊かな中間スケルトン表現によって解決され、反転が大幅に減少します。
この新しい表現を適切にトレーニングするために、合成データに基づくトレーニング プロトコルを使用して、合成による分析フレームワークを拡張します。
この表現により反転が少なく、より正確な予測が得られることを示します。
私たちのアプローチは、標準ベンチマークで合成による分析でトレーニングされた以前のモデルよりも優れたパフォーマンスを発揮します。

要約(オリジナル)

Modern pose estimation models are trained on large, manually-labelled datasets which are costly and may not cover the full extent of human poses and appearances in the real world. With advances in neural rendering, analysis-by-synthesis and the ability to not only predict, but also render the pose, is becoming an appealing framework, which could alleviate the need for large scale manual labelling efforts. While recent work have shown the feasibility of this approach, the predictions admit many flips due to a simplistic intermediate skeleton representation, resulting in low precision and inhibiting the acquisition of any downstream knowledge such as three-dimensional positioning. We solve this problem with a more expressive intermediate skeleton representation capable of capturing the semantics of the pose (left and right), which significantly reduces flips. To successfully train this new representation, we extend the analysis-by-synthesis framework with a training protocol based on synthetic data. We show that our representation results in less flips and more accurate predictions. Our approach outperforms previous models trained with analysis-by-synthesis on standard benchmarks.

arxiv情報

著者 Dominik Borer,Jakob Buhmann,Martin Guay
発行日 2024-11-13 13:40:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.HC パーマリンク