DRSI-Net: Dual-Residual Spatial Interaction Network for Multi-Person Pose Estimation

要約

マルチパーソンポーズ推定 (MPPE) は、フレーム内のすべての人物のキーポイントを特定することを目的としており、コンピューター ビジョンの活発な研究分野です。
さまざまな人間のポーズと複雑なシーンにより、MPPE は局所的な詳細と全体的な構造に依存します。
これらが存在しないと、キー ポイント フィーチャの位置ずれが発生する可能性があります。
この場合、フィーチャのローカル情報とグローバル情報を効果的にリンクできる高次の空間相互作用が特に重要です。
ただし、ほとんどの方法には空間相互作用が含まれていません。
いくつかの方法には低次の空間相互作用がありますが、精度と複雑さの間で適切なバランスを達成するのは困難です。
上記の問題に対処するために、本明細書では、高精度かつ低複雑性のMPPE用の二重残差空間相互作用ネットワーク(DRSI-Net)を提案する。
他の方法と比較して、DRSI-Net は隣接するフィーチャに対して残留空間情報の相互作用を再帰的に実行するため、より有用な空間情報を保持し、浅く抽出されたフィーチャと深く抽出されたフィーチャの間でより多くの類似性を取得できます。
マルチスケール フィーチャ フュージョンに導入されたチャネルと空間の二重注意メカニズムは、ネットワークがターゲットのキー ポイントに関連するフィーチャに適応的に焦点を当て、生成されたポーズをさらに洗練するのにも役立ちます。
同時に、インタラクティブ チャネルの寸法を最適化し、勾配フローを分割することにより、空間インタラクション モジュールが軽量になるように設計され、ネットワークの複雑さが軽減されます。
COCO データセットの実験結果によると、提案された DRSI-Net は、精度と複雑さの点で他の最先端の方法よりも優れています。

要約(オリジナル)

Multi-person pose estimation (MPPE), which aims to locate the key points for all persons in the frames, is an active research branch of computer vision. Variable human poses and complex scenes make MPPE dependent on local details and global structures; their absence may cause key point feature misalignment. In this case, high-order spatial interactions that can effectively link the local and global information of features are particularly important. However, most methods do not include spatial interactions. A few methods have low-order spatial interactions, but achieving a good balance between accuracy and complexity is challenging. To address the above problems, a dual-residual spatial interaction network (DRSI-Net) for MPPE with high accuracy and low complexity is proposed herein. Compared to other methods, DRSI-Net recursively performs residual spatial information interactions on the neighbouring features so that more useful spatial information can be retained and more similarities can be obtained between shallow and deep extracted features. The channel and spatial dual attention mechanism introduced in the multi-scale feature fusion also helps the network to adaptively focus on features relevant to the target key points and further refine the generated poses. Simultaneously, by optimising the interactive channel dimensions and dividing the gradient flow, the spatial interaction module is designed to be lightweight, thus reducing the complexity of the network. According to the experimental results on the COCO dataset, the proposed DRSI-Net outperforms other state-of-the-art methods in accuracy and complexity.

arxiv情報

著者 Shang Wu,Bin Wang
発行日 2024-05-09 14:12:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク