要約
ステレオ自己中心的な人間の姿勢推定のための、シンプルかつ効果的なトランスフォーマーベースのモデルである EgoPoseFormer を紹介します。
自己中心的なポーズ推定における主な課題は、ヘッドマウント カメラのセルフ オクルージョンや限られた視野 (FOV) によって引き起こされる関節の不可視性を克服することです。
私たちのアプローチは、2 段階の姿勢推定パラダイムを組み込むことでこの課題を克服します。最初の段階では、モデルはグローバル情報を活用して各関節の大まかな位置を推定し、次に、第 2 段階で、DETR スタイルの変換器を使用して大まかな位置を調整します。
きめの細かいステレオ視覚機能を利用することによって。
さらに、トランスフォーマーがマルチビュー フィーチャを効果的に処理できるようにする変形可能なステレオ アテンション操作を紹介します。これにより、3D 世界で各関節の位置を正確に特定できるようになります。
ステレオ UnrealEgo データセットでメソッドを評価し、計算効率が高く、以前のアプローチを大幅に上回るパフォーマンスを示しました。現状と比較して、わずか 7.9% のモデル パラメーターと 13.1% の FLOP で MPJPE が 27.4mm (45% 改善) 改善されました。
-美術。
驚くべきことに、適切なトレーニング設定を使用すると、第 1 段階のポーズ提案ネットワークでも、従来の技術と比較して優れたパフォーマンスを達成できることがわかりました。
また、私たちの手法を単眼設定にシームレスに拡張できることも示します。これにより、SceneEgo データセットで最先端のパフォーマンスが達成され、わずか 60.7% のモデルを使用した既存の最良の手法と比較して MPJPE が 25.5 mm (21% 向上) 向上しました。
パラメータと 36.4% の FLOP。
コードは https://github.com/ChenhongyiYang/egoposeformer で入手できます。
要約(オリジナル)
We present EgoPoseFormer, a simple yet effective transformer-based model for stereo egocentric human pose estimation. The main challenge in egocentric pose estimation is overcoming joint invisibility, which is caused by self-occlusion or a limited field of view (FOV) of head-mounted cameras. Our approach overcomes this challenge by incorporating a two-stage pose estimation paradigm: in the first stage, our model leverages the global information to estimate each joint’s coarse location, then in the second stage, it employs a DETR style transformer to refine the coarse locations by exploiting fine-grained stereo visual features. In addition, we present a Deformable Stereo Attention operation to enable our transformer to effectively process multi-view features, which enables it to accurately localize each joint in the 3D world. We evaluate our method on the stereo UnrealEgo dataset and show it significantly outperforms previous approaches while being computationally efficient: it improves MPJPE by 27.4mm (45% improvement) with only 7.9% model parameters and 13.1% FLOPs compared to the state-of-the-art. Surprisingly, with proper training settings, we find that even our first-stage pose proposal network can achieve superior performance compared to previous arts. We also show that our method can be seamlessly extended to monocular settings, which achieves state-of-the-art performance on the SceneEgo dataset, improving MPJPE by 25.5mm (21% improvement) compared to the best existing method with only 60.7% model parameters and 36.4% FLOPs. Code is available at: https://github.com/ChenhongyiYang/egoposeformer .
arxiv情報
著者 | Chenhongyi Yang,Anastasia Tkach,Shreyas Hampali,Linguang Zhang,Elliot J. Crowley,Cem Keskin |
発行日 | 2024-08-15 17:08:49+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google