要約
単一の単眼カメラストリームから複数の人々の詳細な3Dポーズを検出および追跡するためのアプローチを紹介します。
私たちのシステムは、困難なポーズや閉塞で満たされた混雑したシーンで、一時的に一貫した予測を維持しています。
私たちのモデルは、強力なフレームごとの検出と、フレームからフレームへの人々を追跡するための学習ポーズアップデートの両方を実行します。
時間を越えて一致するのではなく、ポーズは新しい入力画像から直接更新されます。これにより、オクルージョンによるオンライン追跡が可能になります。
擬似標識アノテーションを活用する多数の画像およびビデオデータセットでトレーニングして、3Dポーズ推定の精度で最先端のシステムに一致するモデルを作成しながら、時間をかけて複数の人を追跡する方が速く、より正確になります。
コードと重みはhttps://github.com/apple/ml-comotionで提供されます
要約(オリジナル)
We introduce an approach for detecting and tracking detailed 3D poses of multiple people from a single monocular camera stream. Our system maintains temporally coherent predictions in crowded scenes filled with difficult poses and occlusions. Our model performs both strong per-frame detection and a learned pose update to track people from frame to frame. Rather than match detections across time, poses are updated directly from a new input image, which enables online tracking through occlusion. We train on numerous image and video datasets leveraging pseudo-labeled annotations to produce a model that matches state-of-the-art systems in 3D pose estimation accuracy while being faster and more accurate in tracking multiple people through time. Code and weights are provided at https://github.com/apple/ml-comotion
arxiv情報
著者 | Alejandro Newell,Peiyun Hu,Lahav Lipson,Stephan R. Richter,Vladlen Koltun |
発行日 | 2025-04-16 15:40:15+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google