要約
トランスフォーマーは、ビデオベースの 3D 人間の姿勢推定の分野で成功裏に適用されています。
ただし、これらのビデオ ポーズ トランスフォーマー (VPT) は計算コストが高いため、リソースに制約のあるデバイスでは実用的ではありません。
この論文では、ビデオから効率的にトランスフォーマーベースの 3D 人間の姿勢推定を行うための、Hourglass Tokenizer (HoT) と呼ばれるプラグアンドプレイのプルーニングと回復のフレームワークを紹介します。
私たちの HoT は、冗長フレームのポーズ トークンを枝刈りすることから始まり、全長トークンを回復することで終了します。その結果、中間のトランスフォーマー ブロックにいくつかのポーズ トークンが生成され、モデルの効率が向上します。
これを効果的に達成するために、ビデオ フレームの冗長性を排除しながら、意味論的多様性の高いいくつかの代表的なトークンを動的に選択するトークン プルーニング クラスター (TPC) を提案します。
さらに、選択されたトークンに基づいて詳細な時空間情報を復元するトークン リカバリ アテンション (TRA) を開発します。これにより、ネットワーク出力を元の全長の時間解像度に拡張して、高速推論を実現します。
2 つのベンチマーク データセット (Human3.6M と MPI-INF-3DHP) での広範な実験により、私たちの方法が元の VPT モデルと比較して高い効率と推定精度の両方を達成できることが実証されました。
たとえば、Human3.6M 上の MotionBERT と MixSTE に適用すると、HoT は精度を犠牲にすることなくほぼ 50% の FLOP を節約し、わずか 0.2% の精度の低下でほぼ 40% の FLOP を節約できます。
私たちのソースコードはオープンソース化されます。
要約(オリジナル)
Transformers have been successfully applied in the field of video-based 3D human pose estimation. However, the high computational costs of these video pose transformers (VPTs) make them impractical on resource-constrained devices. In this paper, we present a plug-and-play pruning-and-recovering framework, called Hourglass Tokenizer (HoT), for efficient transformer-based 3D human pose estimation from videos. Our HoT begins with pruning pose tokens of redundant frames and ends with recovering full-length tokens, resulting in a few pose tokens in the intermediate transformer blocks and thus improving the model efficiency. To effectively achieve this, we propose a token pruning cluster (TPC) that dynamically selects a few representative tokens with high semantic diversity while eliminating the redundancy of video frames. In addition, we develop a token recovering attention (TRA) to restore the detailed spatio-temporal information based on the selected tokens, thereby expanding the network output to the original full-length temporal resolution for fast inference. Extensive experiments on two benchmark datasets (i.e., Human3.6M and MPI-INF-3DHP) demonstrate that our method can achieve both high efficiency and estimation accuracy compared to the original VPT models. For instance, applying to MotionBERT and MixSTE on Human3.6M, our HoT can save nearly 50% FLOPs without sacrificing accuracy and nearly 40% FLOPs with only 0.2% accuracy drop, respectively. Our source code will be open-sourced.
arxiv情報
著者 | Wenhao Li,Mengyuan Liu,Hong Liu,Pichao Wang,Jialun Cai,Nicu Sebe |
発行日 | 2023-11-20 18:59:51+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google