要約
人間のポーズ推定方法は、孤立した人々にはうまく機能しますが、複数のボディに近さのシナリオに苦労しています。
以前の研究は、検出された境界ボックスまたはキーポイントによるポーズ推定を条件付けすることにより、この問題に対処していますが、インスタンスマスクを見落としています。
境界ボックス、インスタンスマスク、ポーズの相互の一貫性を繰り返し実施することを提案します。
導入されたBBOX-MASK-POSE(BMP)メソッドは、閉ループで互いの出力を改善する3つの特殊なモデルを使用します。
すべてのモデルは相互条件付けに適合しており、マルチボディシーンの堅牢性が向上します。
新しいマスク条件付けされたポーズ推定モデルであるMaskposeは、Ochumanのトップダウンアプローチの中で最適です。
BBOX-MASK-POSEは、3つのタスクすべてのOchuman DatasetにSOTAを押します – 検出、インスタンスセグメンテーション、およびポーズ推定。
また、ココポーズの推定でSOTAパフォーマンスを達成します。
この方法は、大きなインスタンスが重複するシーンで特に優れており、ベースライン検出器よりも39%の検出を改善します。
小さな専門モデルとランタイムが高速化すると、BMPは大規模な人間中心の基礎モデルに代わる効果的な代替品です。
コードとモデルは、https://mirapurkrabek.github.io/bbox-mask-poseで入手できます。
要約(オリジナル)
Human pose estimation methods work well on isolated people but struggle with multiple-bodies-in-proximity scenarios. Previous work has addressed this problem by conditioning pose estimation by detected bounding boxes or keypoints, but overlooked instance masks. We propose to iteratively enforce mutual consistency of bounding boxes, instance masks, and poses. The introduced BBox-Mask-Pose (BMP) method uses three specialized models that improve each other’s output in a closed loop. All models are adapted for mutual conditioning, which improves robustness in multi-body scenes. MaskPose, a new mask-conditioned pose estimation model, is the best among top-down approaches on OCHuman. BBox-Mask-Pose pushes SOTA on OCHuman dataset in all three tasks – detection, instance segmentation, and pose estimation. It also achieves SOTA performance on COCO pose estimation. The method is especially good in scenes with large instances overlap, where it improves detection by 39% over the baseline detector. With small specialized models and faster runtime, BMP is an effective alternative to large human-centered foundational models. Code and models are available on https://MiraPurkrabek.github.io/BBox-Mask-Pose.
arxiv情報
著者 | Miroslav Purkrabek,Jiri Matas |
発行日 | 2025-03-12 14:28:25+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google