FusePose: IMU-Vision Sensor Fusion in Kinematic Space for Parametric Human Pose Estimation

要約

3D 人体姿勢推定ミッションには、オクルージョンや自己オクルージョンによるパフォーマンスの低下など、困難な問題が存在します。
最近では、IMU-ビジョン センサー フュージョンは、これらの問題を解決するために価値があると見なされています。
ただし、異種である IMU とビジョン データの融合に関する以前の研究では、IMU の生データまたは信頼できる高レベルのビジョン機能のいずれかを適切に利用できませんでした。
より効率的なセンサー フュージョンを促進するために、この作業では、パラメトリックなヒューマン キネマティック モデルの下で \emph{FusePose} と呼ばれるフレームワークを提案します。
具体的には、IMU またはビジョン データのさまざまな情報を集約し、NaiveFuse、KineFuse、および AdaDeepFuse という 3 つの特徴的なセンサー フュージョン アプローチを導入します。
NaiveFuse サーバーは、単純化された IMU データとユークリッド空間で推定された 3D ポーズのみを融合する基本的なアプローチとして使用されます。
キネマティック空間では、KineFuse は、キャリブレーションおよびアライメントされた IMU の生データを、変換された 3D ポーズ パラメータと統合できます。
AdaDeepFuse は、このキネマティック フュージョン プロセスを、適応的でエンドツーエンドのトレーニング可能な方法にさらに発展させます。
アブレーション研究を含む包括的な実験は、提案されたフレームワークの合理性と優位性を示しています。
3D 人間の姿勢推定のパフォーマンスは、ベースラインの結果と比較して改善されています。
Total Capture データセットでは、KineFuse は IMU をテストのみに使用する以前の最先端技術を 8.6\% 上回っています。
AdaDeepFuse は、トレーニングとテストの両方に IMU を使用する最先端技術を 8.5\% 上回っています。
さらに、Human3.6M データセットでの実験を通じて、フレームワークの一般化機能を検証します。

要約(オリジナル)

There exist challenging problems in 3D human pose estimation mission, such as poor performance caused by occlusion and self-occlusion. Recently, IMU-vision sensor fusion is regarded as valuable for solving these problems. However, previous researches on the fusion of IMU and vision data, which is heterogeneous, fail to adequately utilize either IMU raw data or reliable high-level vision features. To facilitate a more efficient sensor fusion, in this work we propose a framework called \emph{FusePose} under a parametric human kinematic model. Specifically, we aggregate different information of IMU or vision data and introduce three distinctive sensor fusion approaches: NaiveFuse, KineFuse and AdaDeepFuse. NaiveFuse servers as a basic approach that only fuses simplified IMU data and estimated 3D pose in euclidean space. While in kinematic space, KineFuse is able to integrate the calibrated and aligned IMU raw data with converted 3D pose parameters. AdaDeepFuse further develops this kinematical fusion process to an adaptive and end-to-end trainable manner. Comprehensive experiments with ablation studies demonstrate the rationality and superiority of the proposed framework. The performance of 3D human pose estimation is improved compared to the baseline result. On Total Capture dataset, KineFuse surpasses previous state-of-the-art which uses IMU only for testing by 8.6\%. AdaDeepFuse surpasses state-of-the-art which uses IMU for both training and testing by 8.5\%. Moreover, we validate the generalization capability of our framework through experiments on Human3.6M dataset.

arxiv情報

著者 Yiming Bao,Xu Zhao,Dahong Qian
発行日 2022-08-25 09:35:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク