GTPT: Group-based Token Pruning Transformer for Efficient Human Pose Estimation

要約

近年、2D 人間の姿勢推定は公開ベンチマークにおいて大幅な進歩を遂げています。
ただし、これらのアプローチの多くは、パラメトリック数量と計算オーバーヘッドが多いため、産業界では適用性が低いという課題に直面しています。
人間の姿勢推定を効率的に行うことは、特に多数のキーポイントを含む全身の姿勢推定の場合、依然としてハードルが高いです。
人間の姿勢を効率的に推定するための最新の方法は主に CNN に依存していますが、私たちはトランスフォーマーの利点を最大限に活用するグループベースのトークン プルーニング トランスフォーマー (GTPT) を提案します。
GTPT は、粗いものから細かいものへと段階的にキーポイントを導入することで計算の負担を軽減します。
高いパフォーマンスを確保しながら、計算オーバーヘッドを最小限に抑えます。
さらに、GTPT はキーポイント トークンをグループ化し、ビジュアル トークンをプルーニングして、冗長性を削減しながらモデルのパフォーマンスを向上させます。
わずかな計算オーバーヘッドでグローバルな対話を実現するために、異なるグループ間のマルチヘッド グループ アテンション (MHGA) を提案します。
COCOとCOCO-WholeBodyの実験を行いました。
実験結果は、他の方法と比較して、GTPT が、特に多数のキーポイントを持つ全身において、より少ない計算量でより高いパフォーマンスを達成できることを示しています。

要約(オリジナル)

In recent years, 2D human pose estimation has made significant progress on public benchmarks. However, many of these approaches face challenges of less applicability in the industrial community due to the large number of parametric quantities and computational overhead. Efficient human pose estimation remains a hurdle, especially for whole-body pose estimation with numerous keypoints. While most current methods for efficient human pose estimation primarily rely on CNNs, we propose the Group-based Token Pruning Transformer (GTPT) that fully harnesses the advantages of the Transformer. GTPT alleviates the computational burden by gradually introducing keypoints in a coarse-to-fine manner. It minimizes the computation overhead while ensuring high performance. Besides, GTPT groups keypoint tokens and prunes visual tokens to improve model performance while reducing redundancy. We propose the Multi-Head Group Attention (MHGA) between different groups to achieve global interaction with little computational overhead. We conducted experiments on COCO and COCO-WholeBody. Compared to other methods, the experimental results show that GTPT can achieve higher performance with less computation, especially in whole-body with numerous keypoints.

arxiv情報

著者 Haonan Wang,Jie Liu,Jie Tang,Gangshan Wu,Bo Xu,Yanbing Chou,Yong Wang
発行日 2024-07-16 14:32:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク