要約
単眼 RGB 画像からの人間の姿勢推定 (HPE) は、臨床ベッド内での骨格ベースの動作認識にとって重要ですが、このシナリオではラベル付けされた HPE データが人を遮る毛布が頻繁に存在するため、HPE モデルに特有の課題が生じます。
少ないです。
これに対処するために、合成写真のようにリアルなブランケットを含む 1,217,312 フレームを含む Fit3D データセットの拡張である BlanketGen2-Fit3D (BG2-Fit3D) を導入します。
これを生成するために、BlanketGen2 を使用しました。これは、グラウンドトゥルースのスキン マルチパーソン線形モデル (SMPL) メッシュを使用して合成ブランケットをシミュレートし、オリジナルの上に重ねられる透明な画像としてレンダリングする、BlanketGen パイプラインの新しい改良バージョンです。
フレーム。
このデータセットはオリジナルの Fit3D と組み合わせて使用され、ViTPose-B HPE モデルを微調整し、合成ブランケット増強の有効性を評価しました。
トレーニングされたモデルは、現実世界のブランケット閉塞ベッド内 HPE データセット (SLP データセット) でさらに評価されました。
Fit3D のみでトレーニングされたアーキテクチャと、合成ブランケット拡張でトレーニングされたアーキテクチャを比較すると、後に BG2-Fit3D で姿勢推定パフォーマンスが向上し、合成ブランケット オクルージョン データセットは (0.977 パーセントの正しいキーポイント (PCK)、0.149 正規化平均誤差 (NME) に大幅に向上しました)
) 絶対 4.4% PCK 増加。
さらに、SLP のテスト結果は、実際の毛布でポーズが遮られた実世界の画像上で、絶対 2.3% PCK だけパフォーマンスを向上させることにより、合成データ拡張の有用性を実証しました。
これらの結果は、合成ブランケット増強が RGB 画像からベッド内ブランケットで遮蔽された HPE を改善する可能性があることを示しています。
データセットとコードは一般に公開されます。
要約(オリジナル)
Human Pose Estimation (HPE) from monocular RGB images is crucial for clinical in-bed skeleton-based action recognition, however, it poses unique challenges for HPE models due to the frequent presence of blankets occluding the person, while labeled HPE data in this scenario is scarce. To address this we introduce BlanketGen2-Fit3D (BG2-Fit3D), an augmentation of Fit3D dataset that contains 1,217,312 frames with synthetic photo-realistic blankets. To generate it we used BlanketGen2, our new and improved version of our BlanketGen pipeline that simulates synthetic blankets using ground-truth Skinned Multi-Person Linear model (SMPL) meshes and then renders them as transparent images that can be layered on top of the original frames. This dataset was used in combination with the original Fit3D to finetune the ViTPose-B HPE model, to evaluate synthetic blanket augmentation effectiveness. The trained models were further evaluated on a real-world blanket occluded in-bed HPE dataset (SLP dataset). Comparing architectures trained on only Fit3D with the ones trained with our synthetic blanket augmentation the later improved pose estimation performance on BG2-Fit3D, the synthetic blanket occluded dataset significantly to (0.977 Percentage of Correct Keypoints (PCK), 0.149 Normalized Mean Error (NME)) with an absolute 4.4% PCK increase. Furthermore, the test results on SLP demonstrated the utility of synthetic data augmentation by improving performance by an absolute 2.3% PCK, on real-world images with the poses occluded by real blankets. These results show synthetic blanket augmentation has the potential to improve in-bed blanket occluded HPE from RGB images. The dataset as well as the code will be made available to the public.
arxiv情報
著者 | Tamás Karácsony,João Carmona,João Paulo Silva Cunha |
発行日 | 2025-01-21 17:38:42+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google