Transformer-based Global 3D Hand Pose Estimation in Two Hands Manipulating Objects Scenarios

要約

このレポートでは、Egocentric および Multi-view Cameras (手の姿勢推定) からの人体、手、および活動 (HBHA) に関する ECCV 2022 課題に対する当社の第 1 位のソリューションについて説明します。
この課題では、自己中心的な視点で 2 つの手とオブジェクトが相互作用している入力画像から、グローバルな 3D の手のポーズを推定することを目指しています。
提案された方法は、トランス アーキテクチャを介してエンド ツー エンドのマルチハンド ポーズ推定を実行します。
特に、私たちの方法は、2 つの手が相互作用するシナリオで手のポーズをロバストに推定します。
さらに、手のスケールを考慮して絶対深度をロバストに推定するアルゴリズムを提案します。
提案されたアルゴリズムは、手の大きさが人によって異なる場合でもうまく機能します。
私たちの方法は、テスト セットの各手で 14.4 mm (左) と 15.9 mm (右) の誤差を達成します。

要約(オリジナル)

This report describes our 1st place solution to ECCV 2022 challenge on Human Body, Hands, and Activities (HBHA) from Egocentric and Multi-view Cameras (hand pose estimation). In this challenge, we aim to estimate global 3D hand poses from the input image where two hands and an object are interacting on the egocentric viewpoint. Our proposed method performs end-to-end multi-hand pose estimation via transformer architecture. In particular, our method robustly estimates hand poses in a scenario where two hands interact. Additionally, we propose an algorithm that considers hand scales to robustly estimate the absolute depth. The proposed algorithm works well even when the hand sizes are various for each person. Our method attains 14.4 mm (left) and 15.9 mm (right) errors for each hand in the test set.

arxiv情報

著者 Hoseong Cho,Donguk Kim,Chanwoo Kim,Seongyeong Lee,Seungryul Baek
発行日 2022-10-20 16:24:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク