Benchmarking Monocular 3D Dog Pose Estimation Using In-The-Wild Motion Capture Data

要約

野生の単眼画像からの 3D イヌの姿勢推定に焦点を当てた新しいベンチマーク分析を紹介します。
マルチモーダル データセット 3DDogs-Lab は屋内で撮影され、歩道を小走りするさまざまな犬種をフィーチャーしています。
これには、光学マーカーベースのモーション キャプチャ システム、RGBD カメラ、IMU、圧力マットからのデータが含まれています。
高品質のモーション データを提供する一方で、光学マーカーの存在と背景の多様性が限られているため、キャプチャされたビデオは現実世界の状況をあまり表現していません。
これに対処するために、光学マーカーが塗り込まれ、被写体がさまざまな環境に配置されるデータセットの自然化バージョンである 3DDogs-Wild を作成しました。これにより、RGB 画像ベースの姿勢検出器をトレーニングするための有用性が高まります。
3DDogs-Wild を使用してモデルをトレーニングすると、自然環境のデータを評価する際のパフォーマンスが向上することを示します。
さらに、さまざまな姿勢推定モデルを使用した徹底的な分析を提供し、それぞれの長所と短所を明らかにします。
私たちの発見は、提供されたデータセットと組み合わせることで、3D 動物の姿勢推定を進歩させるための貴重な洞察を提供すると信じています。

要約(オリジナル)

We introduce a new benchmark analysis focusing on 3D canine pose estimation from monocular in-the-wild images. A multi-modal dataset 3DDogs-Lab was captured indoors, featuring various dog breeds trotting on a walkway. It includes data from optical marker-based mocap systems, RGBD cameras, IMUs, and a pressure mat. While providing high-quality motion data, the presence of optical markers and limited background diversity make the captured video less representative of real-world conditions. To address this, we created 3DDogs-Wild, a naturalised version of the dataset where the optical markers are in-painted and the subjects are placed in diverse environments, enhancing its utility for training RGB image-based pose detectors. We show that using the 3DDogs-Wild to train the models leads to improved performance when evaluating on in-the-wild data. Additionally, we provide a thorough analysis using various pose estimation models, revealing their respective strengths and weaknesses. We believe that our findings, coupled with the datasets provided, offer valuable insights for advancing 3D animal pose estimation.

arxiv情報

著者 Moira Shooter,Charles Malleson,Adrian Hilton
発行日 2024-06-20 15:33:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク