要約
人間のポーズ予測は、観測されたポーズシーケンスのために複数の先物が存在するため、本質的にマルチモーダルです。
ただし、タスクが不適切であるため、マルチモダリティの評価は困難です。
したがって、最初に、タスクを適切に位置づけるための代替パラダイムを提案します。
次に、最先端の方法はマルチモダリティを予測しますが、これには大量の予測をオーバーサンプリングする必要があります。
これにより、重要な疑問が生じます。(1)少数の予測を効率的にサンプリングすることでマルチモダリティをキャプチャできますか?
(2)その後、予測された先物のどれが観察されたポーズシーケンスの可能性が高いのはどれですか?
これらの質問は、マルチモダリティのためのシンプルで効果的なヒートマップベースの表現であるMotionMapで対処します。
ヒートマップを拡張して、すべての可能な動きの空間上の空間分布を表します。ここでは、異なる局所的な最大値は、特定の観測の異なる予測に対応しています。
MotionMapは、観察ごとに可変数のモードをキャプチャし、さまざまなモードに対して信頼測定を提供できます。
さらに、MotionMapを使用すると、予測されたポーズシーケンスにわたって不確実性と制御可能性の概念を導入できます。
最後に、MotionMapは、安全性を評価するのに重要ではないが重要でないまれなモードをキャプチャします。
人気のある3Dヒューマンポーズデータセットを使用した複数の定性的および定量的実験を通じて、Human 3.6mとAmassを使用して、提案された方法の強みと制限を強調して、私たちの主張を支持します。
プロジェクトページ:https://vita-epfl.github.io/motionmap
要約(オリジナル)
Human pose forecasting is inherently multimodal since multiple futures exist for an observed pose sequence. However, evaluating multimodality is challenging since the task is ill-posed. Therefore, we first propose an alternative paradigm to make the task well-posed. Next, while state-of-the-art methods predict multimodality, this requires oversampling a large volume of predictions. This raises key questions: (1) Can we capture multimodality by efficiently sampling a smaller number of predictions? (2) Subsequently, which of the predicted futures is more likely for an observed pose sequence? We address these questions with MotionMap, a simple yet effective heatmap based representation for multimodality. We extend heatmaps to represent a spatial distribution over the space of all possible motions, where different local maxima correspond to different forecasts for a given observation. MotionMap can capture a variable number of modes per observation and provide confidence measures for different modes. Further, MotionMap allows us to introduce the notion of uncertainty and controllability over the forecasted pose sequence. Finally, MotionMap captures rare modes that are non-trivial to evaluate yet critical for safety. We support our claims through multiple qualitative and quantitative experiments using popular 3D human pose datasets: Human3.6M and AMASS, highlighting the strengths and limitations of our proposed method. Project Page: https://vita-epfl.github.io/MotionMap
arxiv情報
著者 | Reyhaneh Hosseininejad,Megh Shukla,Saeed Saadatnejad,Mathieu Salzmann,Alexandre Alahi |
発行日 | 2025-03-24 16:42:33+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google