Interacting Hand-Object Pose Estimation via Dense Mutual Attention

要約

3D の手オブジェクトの姿勢推定は、多くのコンピューター ビジョン アプリケーションの成功の鍵です。
このタスクの主な焦点は、手とオブジェクトの間の相互作用を効果的にモデル化することです。
この目的のために、既存の作業は、計算コストの高い反復最適化における相互作用の制約に依存するか、サンプリングされた手とオブジェクトのキーポイント間のまばらな相関関係のみを考慮します。
対照的に、手とオブジェクトの間のきめの細かい依存関係をモデル化できる、新しい密な相互注意メカニズムを提案します。
具体的には、最初にメッシュ構造に従ってハンドグラフとオブジェクトグラフを構築します。
ハンド ノードごとに、学習した注意によってすべてのオブジェクト ノードから特徴を集約し、オブジェクト ノードごとにその逆も行います。
このような密な相互注意のおかげで、私たちの方法は、高品質でリアルタイムの推論速度で、物理的にもっともらしいポーズを生成できます。
大規模なベンチマーク データセットに対する広範な定量的および定性的な実験により、私たちの方法が最先端の方法よりも優れていることが示されています。
コードは https://github.com/rongakowang/DenseMutualAttention.git で入手できます。

要約(オリジナル)

3D hand-object pose estimation is the key to the success of many computer vision applications. The main focus of this task is to effectively model the interaction between the hand and an object. To this end, existing works either rely on interaction constraints in a computationally-expensive iterative optimization, or consider only a sparse correlation between sampled hand and object keypoints. In contrast, we propose a novel dense mutual attention mechanism that is able to model fine-grained dependencies between the hand and the object. Specifically, we first construct the hand and object graphs according to their mesh structures. For each hand node, we aggregate features from every object node by the learned attention and vice versa for each object node. Thanks to such dense mutual attention, our method is able to produce physically plausible poses with high quality and real-time inference speed. Extensive quantitative and qualitative experiments on large benchmark datasets show that our method outperforms state-of-the-art methods. The code is available at https://github.com/rongakowang/DenseMutualAttention.git.

arxiv情報

著者 Rong Wang,Wei Mao,Hongdong Li
発行日 2022-11-16 10:01:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク