SHARP: Segmentation of Hands and Arms by Range using Pseudo-Depth for Enhanced Egocentric 3D Hand Pose Estimation and Action Recognition

要約

手のポーズは、ユーザーがオブジェクトと対話する自己中心的な視点での動作認識のための重要な情報を表します。
擬似深度画像を使用することによってのみ、RGB フレームに基づく自己中心的な 3D 手の姿勢推定を改善することを提案します。
最先端の単一 RGB 画像深度推定技術を組み込んで、フレームの疑似深度表現を生成し、距離知識を使用してシーンの無関係な部分をセグメント化します。
結果として得られる深度マップは、RGB フレームのセグメンテーション マスクとして使用されます。
H2O データセットの実験結果により、動作認識タスクにおける私たちの方法による推定姿勢の精度が高いことが確認されました。
3D 手のポーズは、物体検出からの情報とともに、トランスベースの動作認識ネットワークによって処理され、その結果、精度は 91.73% となり、あらゆる最先端の方法を上回ります。
3D 手の姿勢の推定では、平均姿勢誤差 28.66 mm で既存の方法と同等のパフォーマンスが得られます。
この方法は、深度センサーに依存せずに、自己中心的な 3D 手の姿勢推定に距離情報を利用する新たな可能性を切り開きます。

要約(オリジナル)

Hand pose represents key information for action recognition in the egocentric perspective, where the user is interacting with objects. We propose to improve egocentric 3D hand pose estimation based on RGB frames only by using pseudo-depth images. Incorporating state-of-the-art single RGB image depth estimation techniques, we generate pseudo-depth representations of the frames and use distance knowledge to segment irrelevant parts of the scene. The resulting depth maps are then used as segmentation masks for the RGB frames. Experimental results on H2O Dataset confirm the high accuracy of the estimated pose with our method in an action recognition task. The 3D hand pose, together with information from object detection, is processed by a transformer-based action recognition network, resulting in an accuracy of 91.73%, outperforming all state-of-the-art methods. Estimations of 3D hand pose result in competitive performance with existing methods with a mean pose error of 28.66 mm. This method opens up new possibilities for employing distance information in egocentric 3D hand pose estimation without relying on depth sensors.

arxiv情報

著者 Wiktor Mucha,Michael Wray,Martin Kampel
発行日 2024-08-19 14:30:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク