要約
Transformer アーキテクチャは、単眼画像からのヒューマン メッシュ リカバリ (HMR) で SOTA パフォーマンスを達成しました。
ただし、パフォーマンスの向上には、かなりのメモリと計算のオーバーヘッドが伴います。
実世界のアプリケーションには、正確な人間のメッシュを再構築するための軽量で効率的なモデルが必要です。
この論文では、単一画像からの HMR タスクのための POoling aAttention TransformER (POTTER) という名前の純粋な変換アーキテクチャを提案します。
従来の注意モジュールはメモリと計算コストが高いことを観察して、パフォーマンスを犠牲にすることなくメモリと計算コストを大幅に削減する効率的なプーリング注意モジュールを提案します。
さらに、HMR タスク用の高解像度 (HR) ストリームを統合することにより、新しいトランス アーキテクチャを設計します。
HR ストリームからの高解像度のローカルおよびグローバル機能を利用して、より正確なヒューマン メッシュを復元できます。
私たちの POTTER は、Human3.6M (PA-MPJPE メトリック) および 3DPW (3 つのメトリックすべて) データセットで、合計パラメーターの 7% と積和演算の 14% しか必要としないため、SOTA メソッド METRO よりも優れています。
プロジェクトの Web ページは https://zczcwh.github.io/potter_page です。
要約(オリジナル)
Transformer architectures have achieved SOTA performance on the human mesh recovery (HMR) from monocular images. However, the performance gain has come at the cost of substantial memory and computational overhead. A lightweight and efficient model to reconstruct accurate human mesh is needed for real-world applications. In this paper, we propose a pure transformer architecture named POoling aTtention TransformER (POTTER) for the HMR task from single images. Observing that the conventional attention module is memory and computationally expensive, we propose an efficient pooling attention module, which significantly reduces the memory and computational cost without sacrificing performance. Furthermore, we design a new transformer architecture by integrating a High-Resolution (HR) stream for the HMR task. The high-resolution local and global features from the HR stream can be utilized for recovering more accurate human mesh. Our POTTER outperforms the SOTA method METRO by only requiring 7% of total parameters and 14% of the Multiply-Accumulate Operations on the Human3.6M (PA-MPJPE metric) and 3DPW (all three metrics) datasets. The project webpage is https://zczcwh.github.io/potter_page.
arxiv情報
| 著者 | Ce Zheng,Xianpeng Liu,Guo-Jun Qi,Chen Chen | 
| 発行日 | 2023-03-23 15:36:12+00:00 | 
| arxivサイト | arxiv_id(pdf) | 
提供元, 利用サービス
arxiv.jp, Google
