Visibility Aware Human-Object Interaction Tracking from Single RGB Camera

要約

人間とその環境の間のインタラクションを 3D でキャプチャすることは、ロボット工学、グラフィックス、ビジョンの多くのアプリケーションにとって重要です。
単一の RGB 画像から 3D の人間と物体を再構成する最近の研究では、深さが固定されていると仮定しているため、フレーム間で一貫した相対変換が行われません。
さらに、オブジェクトが遮られるとパフォーマンスが大幅に低下します。
この研究では、強いオクルージョンに対して堅牢でありながら、単一の RGB カメラからの 3D 人間、物体、それらの間の接触、およびフレーム間の相対移動を追跡する新しい方法を提案します。
私たちの手法は 2 つの重要な洞察に基づいて構築されています。
まず、SMPL をビデオ シーケンスに事前適合させることで得られるフレームごとの SMPL モデル推定に基づいて、人間と物体の神経場の再構成を条件付けします。
これにより、神経再構成の精度が向上し、フレーム間で一貫した相対変換が生成されます。
第 2 に、可視フレームからの人間とオブジェクトの動きは、遮蔽されたオブジェクトを推測するための貴重な情報を提供します。
私たちは、オブジェクトの可視性と人間の動きを明示的に使用して、隣接するフレームを活用して遮蔽されたフレームの予測を行う、新しいトランスフォーマーベースのニューラル ネットワークを提案します。
これらの洞察に基づいて、私たちの方法は、オクルージョン下でも人間と物体の両方を確実に追跡できます。
2 つのデータセットでの実験では、私たちの方法が最先端の方法よりも大幅に改善されていることが示されています。
私たちのコードと事前トレーニングされたモデルは、https://virtualhumans.mpi-inf.mpg.de/VisTracker から入手できます。

要約(オリジナル)

Capturing the interactions between humans and their environment in 3D is important for many applications in robotics, graphics, and vision. Recent works to reconstruct the 3D human and object from a single RGB image do not have consistent relative translation across frames because they assume a fixed depth. Moreover, their performance drops significantly when the object is occluded. In this work, we propose a novel method to track the 3D human, object, contacts between them, and their relative translation across frames from a single RGB camera, while being robust to heavy occlusions. Our method is built on two key insights. First, we condition our neural field reconstructions for human and object on per-frame SMPL model estimates obtained by pre-fitting SMPL to a video sequence. This improves neural reconstruction accuracy and produces coherent relative translation across frames. Second, human and object motion from visible frames provides valuable information to infer the occluded object. We propose a novel transformer-based neural network that explicitly uses object visibility and human motion to leverage neighbouring frames to make predictions for the occluded frames. Building on these insights, our method is able to track both human and object robustly even under occlusions. Experiments on two datasets show that our method significantly improves over the state-of-the-art methods. Our code and pretrained models are available at: https://virtualhumans.mpi-inf.mpg.de/VisTracker

arxiv情報

著者 Xianghui Xie,Bharat Lal Bhatnagar,Gerard Pons-Moll
発行日 2023-10-31 16:27:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク