EvHandPose: Event-based 3D Hand Pose Estimation with Sparse Supervision

要約

イベント カメラは、3D 手の姿勢推定において大きな可能性を示し、特に高速モーションと高ダイナミック レンジの課題に低電力で対処します。
ただし、非同期の差分イメージング メカニズムにより、特に手が動いていない場合(動作の曖昧さが生じる)、手の動作情報をエンコードするイベント表現を設計するのは困難であり、時間的に高密度のイベント ストリームに完全に注釈を付けることは不可能です。
この論文では、正確な手の姿勢推定と動きのあいまいさの問題の軽減のために、Event-to-Pose モジュールで新しいハンド フロー表現を備えた EvHandPose を提案します。
スパースアノテーションの下での問題を解決するために、Pose-to-IWE (Image with Warped Events) モジュールでコントラストの最大化とハンドエッジ制約を設計し、弱い監視フレームワークで EvHandPose を定式化します。
さらに、現実と合成のドメイン ギャップを埋めるために、いくつかの困難なシーンで初の大規模な現実世界のイベントベースの手のポーズ データセットである EvRealHands を構築します。
EvRealHands の実験では、EvHandPose がすべての評価シーンで以前のイベントベースの方法よりも優れたパフォーマンスを示し、RGB ベースの方法と比較して、速い動きや強い光のシーンで高い時間分解能で正確かつ安定した手の姿勢推定を実現し、屋外シーンや別のタイプによく一般化できることを示しています。
イベント カメラの動作を確認し、ハンド ジェスチャ認識タスクの可能性を示します。

要約(オリジナル)

Event camera shows great potential in 3D hand pose estimation, especially addressing the challenges of fast motion and high dynamic range in a low-power way. However, due to the asynchronous differential imaging mechanism, it is challenging to design event representation to encode hand motion information especially when the hands are not moving (causing motion ambiguity), and it is infeasible to fully annotate the temporally dense event stream. In this paper, we propose EvHandPose with novel hand flow representations in Event-to-Pose module for accurate hand pose estimation and alleviating the motion ambiguity issue. To solve the problem under sparse annotation, we design contrast maximization and hand-edge constraints in Pose-to-IWE (Image with Warped Events) module and formulate EvHandPose in a weakly-supervision framework. We further build EvRealHands, the first large-scale real-world event-based hand pose dataset on several challenging scenes to bridge the real-synthetic domain gap. Experiments on EvRealHands demonstrate that EvHandPose outperforms previous event-based methods under all evaluation scenes, achieves accurate and stable hand pose estimation with high temporal resolution in fast motion and strong light scenes compared with RGB-based methods, generalizes well to outdoor scenes and another type of event camera, and shows the potential for the hand gesture recognition task.

arxiv情報

著者 Jianping Jiang,Jiahe Li,Baowen Zhang,Xiaoming Deng,Boxin Shi
発行日 2023-12-28 08:48:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク