Efficient Vision Transformer for Human Pose Estimation via Patch Selection

要約

畳み込みニューラル ネットワーク (CNN) は 2D 人間の姿勢推定で広く成功していますが、ビジョン トランスフォーマー (ViT) は CNN の有望な代替手段として台頭し、最先端のパフォーマンスを向上させます。
ただし、ViT の二次計算の複雑さにより、高解像度画像の処理への適用性は制限されています。
この論文では、ViT の計算の複雑さを軽減するための 3 つの方法を提案します。これらの方法は、他のパッチを無視して、少数の最も有益なパッチを選択して処理することに基づいています。
最初の 2 つの方法では、軽量の姿勢推定ネットワークを活用してパッチ選択プロセスをガイドします。一方、3 番目の方法では、学習可能な関節トークンのセットを利用して、選択されたパッチに身体の関節に関する最も重要な情報が含まれていることを確認します。
6 つのベンチマークにわたる実験では、私たちが提案した手法は、精度の低下が 0% ~ 3.5% の間で最小限に抑えられ、計算量が 30% ~ 44% の範囲で大幅に削減されることがわかりました。

要約(オリジナル)

While Convolutional Neural Networks (CNNs) have been widely successful in 2D human pose estimation, Vision Transformers (ViTs) have emerged as a promising alternative to CNNs, boosting state-of-the-art performance. However, the quadratic computational complexity of ViTs has limited their applicability for processing high-resolution images. In this paper, we propose three methods for reducing ViT’s computational complexity, which are based on selecting and processing a small number of most informative patches while disregarding others. The first two methods leverage a lightweight pose estimation network to guide the patch selection process, while the third method utilizes a set of learnable joint tokens to ensure that the selected patches contain the most important information about body joints. Experiments across six benchmarks show that our proposed methods achieve a significant reduction in computational complexity, ranging from 30% to 44%, with only a minimal drop in accuracy between 0% and 3.5%.

arxiv情報

著者 Kaleab A. Kinfu,Rene Vidal
発行日 2023-11-22 12:35:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク