要約
単眼画像から両手の高密度 3D メッシュを正確に復元することは、オクルージョンと投影の曖昧さのため、かなりの課題を引き起こします。
既存の方法のほとんどは、カラー画像から特徴を抽出してルートに位置合わせされたハンド メッシュを推定しますが、現実世界の重要な深度とスケール情報が無視されます。
解像度が限られているノイズの多いセンサー測定を考慮すると、深度ベースの方法では、密なメッシュではなく 3D キーポイントを予測します。
これらの制限により、これら 2 つの相補的な入力を利用して、現実世界のスケールで緻密なハンド メッシュを取得するようになりました。
この研究では、単一ビューの RGB-D 画像ペアを入力として使用する、両手の密なメッシュを回復するためのエンドツーエンドのフレームワークを提案します。
主な課題は、2 つの異なる入力モダリティを効果的に利用して、RGB 画像のぼやけ効果と深度画像のノイズを軽減することにあります。
深度マップを RGB 画像の追加チャネルとして直接扱う代わりに、深度情報を順序付けされていない点群にエンコードして、より多くの幾何学的詳細を保持します。
具体的には、私たちのフレームワークは ResNet50 と PointNet++ を採用して、それぞれ RGB と点群から特徴を導き出します。
さらに、さまざまなスケールで機能を集約するための新しいピラミッド ディープ フュージョン ネットワーク (PDFNet) を導入します。これは、以前のフュージョン戦略と比較して優れた有効性を示します。
さらに、GCN ベースのデコーダを採用して、融合された特徴を処理し、対応する 3D ポーズと高密度メッシュを復元します。
包括的なアブレーション実験を通じて、私たちは提案した融合アルゴリズムの有効性を実証しただけでなく、公的に利用可能なデータセットに対する最先端のアプローチを上回りました。
結果を再現するために、ソース コードとモデルを {\url{https://github.com/zijinxuxu/PDFNet}} で公開します。
要約(オリジナル)
Accurately recovering the dense 3D mesh of both hands from monocular images poses considerable challenges due to occlusions and projection ambiguity. Most of the existing methods extract features from color images to estimate the root-aligned hand meshes, which neglect the crucial depth and scale information in the real world. Given the noisy sensor measurements with limited resolution, depth-based methods predict 3D keypoints rather than a dense mesh. These limitations motivate us to take advantage of these two complementary inputs to acquire dense hand meshes on a real-world scale. In this work, we propose an end-to-end framework for recovering dense meshes for both hands, which employ single-view RGB-D image pairs as input. The primary challenge lies in effectively utilizing two different input modalities to mitigate the blurring effects in RGB images and noises in depth images. Instead of directly treating depth maps as additional channels for RGB images, we encode the depth information into the unordered point cloud to preserve more geometric details. Specifically, our framework employs ResNet50 and PointNet++ to derive features from RGB and point cloud, respectively. Additionally, we introduce a novel pyramid deep fusion network (PDFNet) to aggregate features at different scales, which demonstrates superior efficacy compared to previous fusion strategies. Furthermore, we employ a GCN-based decoder to process the fused features and recover the corresponding 3D pose and dense mesh. Through comprehensive ablation experiments, we have not only demonstrated the effectiveness of our proposed fusion algorithm but also outperformed the state-of-the-art approaches on publicly available datasets. To reproduce the results, we will make our source code and models publicly available at {\url{https://github.com/zijinxuxu/PDFNet}}.
arxiv情報
著者 | Jinwei Ren,Jianke Zhu |
発行日 | 2023-07-12 09:33:21+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google