要約
近年のコンピュータビジョンの進歩により、人間のポーズを理解するためにニューラルネットワークを利用したアプリケーションが注目されています。しかし、State-of-the-Artデータセットでの精度は着実に向上していますが、これらのデータセットは実世界のアプリケーションで見られる課題に対応していないことがよくあります。これらの課題とは、カメラから離れた場所にいる人、群衆の中にいる人、大きく隠蔽された人への対処です。その結果、多くの実世界のアプリケーションは、配備されているデータを反映しないデータで学習を行い、大幅な性能不足を招いています。本稿では、実世界の人物ポーズ推定のためのデータセットを自動的に生成する手法であるADG-Poseを紹介します。これらのデータセットは、人物の距離、混雑度、オクルージョン分布などを決定するためにカスタマイズすることができる。本手法で学習したモデルは、他のデータセットで学習したモデルが失敗するような、これらの課題の存在下でもパフォーマンスを発揮することができます。ADG-Poseを用いることで、実世界のスケルトンに基づく行動認識のエンドツーエンドの精度は、適度な距離とオクルージョンレベルのシーンで20%向上し、他のモデルがランダムよりも良いパフォーマンスを出せなかった遠景では4倍向上する。
要約(オリジナル)
Recent advancements in computer vision have seen a rise in the prominence of applications using neural networks to understand human poses. However, while accuracy has been steadily increasing on State-of-the-Art datasets, these datasets often do not address the challenges seen in real-world applications. These challenges are dealing with people distant from the camera, people in crowds, and heavily occluded people. As a result, many real-world applications have trained on data that does not reflect the data present in deployment, leading to significant underperformance. This article presents ADG-Pose, a method for automatically generating datasets for real-world human pose estimation. These datasets can be customized to determine person distances, crowdedness, and occlusion distributions. Models trained with our method are able to perform in the presence of these challenges where those trained on other datasets fail. Using ADG-Pose, end-to-end accuracy for real-world skeleton-based action recognition sees a 20% increase on scenes with moderate distance and occlusion levels, and a 4X increase on distant scenes where other models failed to perform better than random.
arxiv情報
著者 | Ghazal Alinezhad Noghre,Armin Danesh Pazho,Justin Sanchez,Nathan Hewitt,Christopher Neff,Hamed Tabkhi |
発行日 | 2022-06-08 20:17:26+00:00 |
arxivサイト | arxiv_id(pdf) |