要約
単一の RGB 画像からリアルタイムで複数人の 3D ヒューマン メッシュを推定するための 1 段階フレームワークを提案します。
DETR スタイルのパイプラインに従う現在の 1 段階手法は、高解像度の入力で最先端 (SOTA) のパフォーマンスを達成しますが、これが画像のより小さなスケールでの個人の推定に特に有益であることが観察されています (
例: カメラから遠く離れた場所にあるものなど)、その代償として計算オーバーヘッドが大幅に増加します。
これに対処するために、DETR フレームワーク内の画像内の各個人の相対スケールに基づいて動的に調整されるスケール適応トークンを導入します。
具体的には、小さいスケールの個体は高い解像度で処理され、大きい個体は低い解像度で処理され、背景領域がさらに抽出されます。
これらのスケール適応トークンは、画像特徴をより効率的にエンコードし、人間メッシュを回帰するための後続のデコードを容易にすると同時に、モデルが計算リソースをより効果的に割り当てて、より困難なケースに焦点を当てることを可能にします。
実験では、私たちの方法が計算コストを大幅に削減しながら高解像度処理の精度の利点を維持し、SOTA 方法に匹敵するパフォーマンスでリアルタイム推論を達成できることを示しています。
要約(オリジナル)
We propose a one-stage framework for real-time multi-person 3D human mesh estimation from a single RGB image. While current one-stage methods, which follow a DETR-style pipeline, achieve state-of-the-art (SOTA) performance with high-resolution inputs, we observe that this particularly benefits the estimation of individuals in smaller scales of the image (e.g., those far from the camera), but at the cost of significantly increased computation overhead. To address this, we introduce scale-adaptive tokens that are dynamically adjusted based on the relative scale of each individual in the image within the DETR framework. Specifically, individuals in smaller scales are processed at higher resolutions, larger ones at lower resolutions, and background regions are further distilled. These scale-adaptive tokens more efficiently encode the image features, facilitating subsequent decoding to regress the human mesh, while allowing the model to allocate computational resources more effectively and focus on more challenging cases. Experiments show that our method preserves the accuracy benefits of high-resolution processing while substantially reducing computational cost, achieving real-time inference with performance comparable to SOTA methods.
arxiv情報
著者 | Chi Su,Xiaoxuan Ma,Jiajun Su,Yizhou Wang |
発行日 | 2024-11-29 16:34:46+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google