A New Teacher-Reviewer-Student Framework for Semi-supervised 2D Human Pose Estimation

要約

従来の 2D 人間の姿勢推定方法では通常、大規模なラベル付き注釈が必要であり、労力と費用がかかります。
対照的に、半教師あり 2D 人間の姿勢推定では、少量のラベル付きデータとともに大量のラベルなしデータを活用することで、上記の問題を軽減できます。
既存の半教師あり 2D 人間の姿勢推定手法は、バックプロパゲーションを通じてネットワークを更新し、以前のトレーニング プロセスからの重要な履歴情報を無視します。
したがって、我々は、新しく設計された教師-レビューアー-生徒フレームワークを利用することにより、新しい半教師あり2D人間姿勢推定方法を提案します。
具体的には、まず人間が以前の知識を常に見直して定着させるという現象を模倣してフレームワークを設計します。教師は結果を予測して生徒の学習を導き、校閲者は重要な履歴パラメータを保存して追加の監督信号を提供します。
次に、マルチレベルの特徴学習戦略を導入します。これは、バックボーンのさまざまな段階からの出力を利用して、ネットワーク トレーニングをガイドするためのヒートマップを推定し、キーポイントの関係を効果的にキャプチャしながら監視情報を充実させます。
最後に、異なるキーポイントを混合することでポーズ情報を混乱させるデータ拡張戦略、つまりキーポイントミックスを設計し、キーポイントを識別するネットワークの能力を強化します。
公開されているデータセットに対する広範な実験により、私たちの方法が既存の方法と比較して大幅な改善を達成していることが実証されています。

要約(オリジナル)

Conventional 2D human pose estimation methods typically require extensive labeled annotations, which are both labor-intensive and expensive. In contrast, semi-supervised 2D human pose estimation can alleviate the above problems by leveraging a large amount of unlabeled data along with a small portion of labeled data. Existing semi-supervised 2D human pose estimation methods update the network through backpropagation, ignoring crucial historical information from the previous training process. Therefore, we propose a novel semi-supervised 2D human pose estimation method by utilizing a newly designed Teacher-Reviewer-Student framework. Specifically, we first mimic the phenomenon that human beings constantly review previous knowledge for consolidation to design our framework, in which the teacher predicts results to guide the student’s learning and the reviewer stores important historical parameters to provide additional supervision signals. Secondly, we introduce a Multi-level Feature Learning strategy, which utilizes the outputs from different stages of the backbone to estimate the heatmap to guide network training, enriching the supervisory information while effectively capturing keypoint relationships. Finally, we design a data augmentation strategy, i.e., Keypoint-Mix, to perturb pose information by mixing different keypoints, thus enhancing the network’s ability to discern keypoints. Extensive experiments on publicly available datasets, demonstrate our method achieves significant improvements compared to the existing methods.

arxiv情報

著者 Wulian Yun,Mengshi Qi,Fei Peng,Huadong Ma
発行日 2025-01-16 14:40:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク