UniHOPE: A Unified Approach for Hand-Only and Hand-Object Pose Estimation

要約

単眼画像からの3Dハンドのポーズと潜在的な手持ちのオブジェクトを推定することは、長年の課題です。
しかし、既存の方法は、オブジェクトと対話するベアハンドまたはハンドのいずれかに焦点を当てて、特殊なものです。
他のシナリオに適用すると、両方のシナリオとそのパフォーマンスが低下する方法を柔軟に処理できません。
この論文では、一般的な3Dハンドオブジェクトポーズ推定の統一アプローチであるUnihopeを提案し、両方のシナリオを柔軟に適応させます。
技術的には、手オブジェクトの機能をオブジェクトスイッチャーと統合するための把握対象の機能Fusionモジュールを設計して、把握状況に応じてハンドオブジェクトのポーズ推定を動的に制御します。
さらに、オブジェクトの存在に関係なく、ハンドポーズの推定の堅牢性を高めるために、現実的な閉鎖画像ペアを生成してモデルをトレーニングしてオブジェクト誘導の手オクルシオンを学習し、オクルージョンインバリアント機能を学習するためのマルチレベルの特徴強化技術を定式化します。
一般に使用される3つのベンチマークでの広範な実験は、ハンドのみおよび手観オブジェクトのシナリオに対処する際のUnihopeのSOTAパフォーマンスを示しています。
コードはhttps://github.com/joyboywang/unihope_pytorchでリリースされます。

要約(オリジナル)

Estimating the 3D pose of hand and potential hand-held object from monocular images is a longstanding challenge. Yet, existing methods are specialized, focusing on either bare-hand or hand interacting with object. No method can flexibly handle both scenarios and their performance degrades when applied to the other scenario. In this paper, we propose UniHOPE, a unified approach for general 3D hand-object pose estimation, flexibly adapting both scenarios. Technically, we design a grasp-aware feature fusion module to integrate hand-object features with an object switcher to dynamically control the hand-object pose estimation according to grasping status. Further, to uplift the robustness of hand pose estimation regardless of object presence, we generate realistic de-occluded image pairs to train the model to learn object-induced hand occlusions, and formulate multi-level feature enhancement techniques for learning occlusion-invariant features. Extensive experiments on three commonly-used benchmarks demonstrate UniHOPE’s SOTA performance in addressing hand-only and hand-object scenarios. Code will be released on https://github.com/JoyboyWang/UniHOPE_Pytorch.

arxiv情報

著者 Yinqiao Wang,Hao Xu,Pheng-Ann Heng,Chi-Wing Fu
発行日 2025-03-17 15:46:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク