AiOS: All-in-One-Stage Expressive Human Pose and Shape Estimation

要約

表情豊かな人間のポーズと形状の推定 (別名 3D 全身メッシュ回復) には、人体、手、表情の推定が含まれます。
既存の手法のほとんどは、このタスクに 2 段階の方法で取り組んできました。まず、既製の検出モデルで人体の部位を検出し、次に人体のさまざまな部位を個別に推測します。
素晴らしい結果が得られたにもかかわらず、これらの方法では、1) トリミングによる貴重なコンテキスト情報の損失、2) 気を散らす要素の導入、3) さまざまな人物や身体部分間の相互連携の欠如という問題が発生し、特に混雑したシーンでは必然的にパフォーマンスの低下を引き起こします。
これらの問題に対処するために、追加の人物検出ステップを必要とせずに、複数の表情豊かな人物のポーズと形状を回復するための、新しいオールインワンステージフレームワークである AiOS を導入します。
具体的には、私たちの方法は DETR に基づいて構築されており、複数人の全身メッシュ回復タスクを、さまざまな逐次検出を伴う漸進セット予測問題として扱います。
デコーダ トークンを考案し、それをタスクに拡張します。
具体的には、最初に人間トークンを使用して画像内の人間の位置を調査し、各インスタンスのグローバルな特徴をエンコードします。これにより、後の変換ブロックの大まかな位置が提供されます。
次に、関節関連のトークンを導入して画像内の人間の関節を調査し、きめの細かい局所特徴をエンコーダします。これがグローバル特徴と連携して全身メッシュを回帰します。
この単純だが効果的なモデルは、AGORA で NMVE が 9% 削減、EHF で PVE が 30% 削減、ARCTIC で PVE が 10% 削減、PVE が 3% 削減され、以前の最先端の手法を上回っています。
エゴボディで。

要約(オリジナル)

Expressive human pose and shape estimation (a.k.a. 3D whole-body mesh recovery) involves the human body, hand, and expression estimation. Most existing methods have tackled this task in a two-stage manner, first detecting the human body part with an off-the-shelf detection model and inferring the different human body parts individually. Despite the impressive results achieved, these methods suffer from 1) loss of valuable contextual information via cropping, 2) introducing distractions, and 3) lacking inter-association among different persons and body parts, inevitably causing performance degradation, especially for crowded scenes. To address these issues, we introduce a novel all-in-one-stage framework, AiOS, for multiple expressive human pose and shape recovery without an additional human detection step. Specifically, our method is built upon DETR, which treats multi-person whole-body mesh recovery task as a progressive set prediction problem with various sequential detection. We devise the decoder tokens and extend them to our task. Specifically, we first employ a human token to probe a human location in the image and encode global features for each instance, which provides a coarse location for the later transformer block. Then, we introduce a joint-related token to probe the human joint in the image and encoder a fine-grained local feature, which collaborates with the global feature to regress the whole-body mesh. This straightforward but effective model outperforms previous state-of-the-art methods by a 9% reduction in NMVE on AGORA, a 30% reduction in PVE on EHF, a 10% reduction in PVE on ARCTIC, and a 3% reduction in PVE on EgoBody.

arxiv情報

著者 Qingping Sun,Yanjun Wang,Ailing Zeng,Wanqi Yin,Chen Wei,Wenjia Wang,Haiyi Mei,Chi Sing Leung,Ziwei Liu,Lei Yang,Zhongang Cai
発行日 2024-03-26 17:59:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク