Rethinking pose estimation in crowds: overcoming the detection information-bottleneck and ambiguity

要約

個人間の頻繁なやり取りは、姿勢推定アルゴリズムにとって根本的な課題です。
現在のパイプラインは、物体検出器と姿勢推定器を併用する (トップダウン アプローチ) か、最初に体のすべての部分を位置特定してからそれらをリンクして個人の姿勢を予測する (ボトムアップ) かのいずれかです。
しかし、個人が密接に相互作用する場合、トップダウンの方法では個人が重複するため定義が不明確であり、ボトムアップの方法では遠く離れた身体部分とのつながりを誤って推測することがよくあります。
そこで、ボトムアップ手法とトップダウン手法の長所を組み合わせた、ボトムアップ条件付きトップダウン姿勢推定 (BUCTD) と呼ばれる新しいパイプラインを提案します。
具体的には、ボトムアップ モデルを検出器として使用することを提案します。これは、推定された境界ボックスに加えて、注意ベースのトップダウン モデルに条件として供給されるポーズ提案を提供します。
動物と人間の姿勢推定ベンチマークに対するアプローチのパフォーマンスと効率を実証します。
CrowdPose と OCHuman では、以前の最先端のモデルを大幅に上回りました。
我々は、CrowdPose で 78.5 AP、OCHuman で 47.2 AP を達成しました。これは、従来技術と比較して、それぞれ 8.6% と 4.9% の改善です。
さらに、私たちの方法はCOCOなどの混雑していないデータセットで優れたパフォーマンスを示し、マウス、魚、サルを含む複数の動物のベンチマークでパフォーマンスを大幅に向上させることを示します。

要約(オリジナル)

Frequent interactions between individuals are a fundamental challenge for pose estimation algorithms. Current pipelines either use an object detector together with a pose estimator (top-down approach), or localize all body parts first and then link them to predict the pose of individuals (bottom-up). Yet, when individuals closely interact, top-down methods are ill-defined due to overlapping individuals, and bottom-up methods often falsely infer connections to distant body parts. Thus, we propose a novel pipeline called bottom-up conditioned top-down pose estimation (BUCTD) that combines the strengths of bottom-up and top-down methods. Specifically, we propose to use a bottom-up model as the detector, which in addition to an estimated bounding box provides a pose proposal that is fed as condition to an attention-based top-down model. We demonstrate the performance and efficiency of our approach on animal and human pose estimation benchmarks. On CrowdPose and OCHuman, we outperform previous state-of-the-art models by a significant margin. We achieve 78.5 AP on CrowdPose and 47.2 AP on OCHuman, an improvement of 8.6% and 4.9% over the prior art, respectively. Furthermore, we show that our method has excellent performance on non-crowded datasets such as COCO, and strongly improves the performance on multi-animal benchmarks involving mice, fish and monkeys.

arxiv情報

著者 Mu Zhou,Lucas Stoffl,Mackenzie Mathis,Alexander Mathis
発行日 2023-06-13 16:14:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, q-bio.QM パーマリンク