PoseBench: Benchmarking the Robustness of Pose Estimation Models under Corruptions

要約

姿勢推定は、単眼画像を使用して人間や動物の解剖学的キーポイントを正確に特定することを目的としています。これは、人間と機械のインタラクション、身体型 AI、自動運転などのさまざまなアプリケーションにとって重要です。
現在のモデルは有望な結果を示していますが、通常はクリーンなデータでトレーニングおよびテストされているため、実際の展開中に破損が見落とされる可能性があり、実際のシナリオでは安全上のリスクが生じます。
この問題に対処するために、実際の破損に対するポーズ推定モデルの堅牢性を評価するために設計された包括的なベンチマークである PoseBench を導入します。
人間と動物の姿勢推定のための 3 つのデータセットにわたって、トップダウン、ボトムアップ、ヒートマップ ベース、回帰ベース、分類ベースの手法を含む 60 の代表的なモデルを評価しました。
私たちの評価には、1) ぼやけとノイズ、2) 圧縮と色の損失、3) 厳しい照明、4) マスクの 4 つのカテゴリの 10 種類の破損が含まれます。
私たちの調査結果では、最先端のモデルは現実世界の一般的な破損に対して脆弱であり、人間や動物の姿勢推定タスクに取り組むときに異なる動作を示すことが明らかになりました。
モデルの堅牢性を向上させるために、入力解像度、事前トレーニング データセット、バックボーン容量、後処理、データ拡張など、さまざまな設計上の考慮事項を詳しく調べます。
私たちのベンチマークがロバストな姿勢推定の研究を進めるための基盤として役立つことを願っています。
ベンチマークとソースコードは https://xymsh.github.io/PoseBench で公開されます。

要約(オリジナル)

Pose estimation aims to accurately identify anatomical keypoints in humans and animals using monocular images, which is crucial for various applications such as human-machine interaction, embodied AI, and autonomous driving. While current models show promising results, they are typically trained and tested on clean data, potentially overlooking the corruption during real-world deployment and thus posing safety risks in practical scenarios. To address this issue, we introduce PoseBench, a comprehensive benchmark designed to evaluate the robustness of pose estimation models against real-world corruption. We evaluated 60 representative models, including top-down, bottom-up, heatmap-based, regression-based, and classification-based methods, across three datasets for human and animal pose estimation. Our evaluation involves 10 types of corruption in four categories: 1) blur and noise, 2) compression and color loss, 3) severe lighting, and 4) masks. Our findings reveal that state-of-the-art models are vulnerable to common real-world corruptions and exhibit distinct behaviors when tackling human and animal pose estimation tasks. To improve model robustness, we delve into various design considerations, including input resolution, pre-training datasets, backbone capacity, post-processing, and data augmentations. We hope that our benchmark will serve as a foundation for advancing research in robust pose estimation. The benchmark and source code will be released at https://xymsh.github.io/PoseBench

arxiv情報

著者 Sihan Ma,Jing Zhang,Qiong Cao,Dacheng Tao
発行日 2024-06-20 14:40:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク