要約
最近、トランスフォーマーベースの方法は、連続した 2D から 3D へのリフティングの人間の姿勢推定において大きな成功を収めています。
先駆的な作品として、PoseFormer は、各ビデオ フレーム内の人間の関節の空間的関係と、カスケード トランス レイヤーを使用してフレーム全体の人間のダイナミクスをキャプチャし、印象的なパフォーマンスを達成しました。
ただし、実際のシナリオでは、PoseFormer とそのフォローアップのパフォーマンスは次の 2 つの要因によって制限されます。(a) 入力ジョイント シーケンスの長さ。
(b) 2D 関節検出の品質。
既存の方法は通常、入力シーケンスのすべてのフレームにセルフアテンションを適用するため、高度な推定精度を得るためにフレーム数を増やすと膨大な計算負荷が発生し、2D ジョイント検出器の限られた機能によって自然にもたらされるノイズに対してロバストではありません。
この論文では、PoseFormerV2 を提案します。これは、周波数領域での長いスケルトン シーケンスのコンパクトな表現を利用して、受容野を効率的にスケールアップし、ノイズの多い 2D 関節検出に対するロバスト性を高めます。
PoseFormer に最小限の変更を加えることで、提案された方法は時間領域と周波数領域の両方で機能を効果的に融合し、その前身よりも優れた速度と精度のトレードオフを享受します。
2 つのベンチマーク データセット (つまり、Human3.6M と MPI-INF-3DHP) での広範な実験では、提案されたアプローチが元の PoseFormer やその他のトランスフォーマー ベースのバリアントよりも大幅に優れていることが示されています。
コードは \url{https://github.com/QitaoZhao/PoseFormerV2} で公開されています。
要約(オリジナル)
Recently, transformer-based methods have gained significant success in sequential 2D-to-3D lifting human pose estimation. As a pioneering work, PoseFormer captures spatial relations of human joints in each video frame and human dynamics across frames with cascaded transformer layers and has achieved impressive performance. However, in real scenarios, the performance of PoseFormer and its follow-ups is limited by two factors: (a) The length of the input joint sequence; (b) The quality of 2D joint detection. Existing methods typically apply self-attention to all frames of the input sequence, causing a huge computational burden when the frame number is increased to obtain advanced estimation accuracy, and they are not robust to noise naturally brought by the limited capability of 2D joint detectors. In this paper, we propose PoseFormerV2, which exploits a compact representation of lengthy skeleton sequences in the frequency domain to efficiently scale up the receptive field and boost robustness to noisy 2D joint detection. With minimum modifications to PoseFormer, the proposed method effectively fuses features both in the time domain and frequency domain, enjoying a better speed-accuracy trade-off than its precursor. Extensive experiments on two benchmark datasets (i.e., Human3.6M and MPI-INF-3DHP) demonstrate that the proposed approach significantly outperforms the original PoseFormer and other transformer-based variants. Code is released at \url{https://github.com/QitaoZhao/PoseFormerV2}.
arxiv情報
著者 | Qitao Zhao,Ce Zheng,Mengyuan Liu,Pichao Wang,Chen Chen |
発行日 | 2023-03-30 15:45:51+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google