要約
単一の RGB 画像からカメラ空間のハンド メッシュを予測することは、3D 仮想世界および拡張世界でリアルな手のインタラクションを可能にするために重要です。
以前の研究では通常、タスクが 2 つの段階に分割されていました。つまり、手のトリミングされた画像が与えられ、相対座標でメッシュを予測し、その後、これらの予測を別個の独立した段階でカメラ空間に取り込み、多くの場合、貴重なコンテキスト情報やスケール情報が失われます。
。
これらの手がかりの損失を防ぐために、これら 2 つの段階を 2D-3D 対応問題に対処するエンドツーエンドのソリューションに統合することを提案します。
このソリューションは、新しい微分可能な全地球測位モジュールを介して、カメラ空間出力からネットワークの残りの部分への逆伝播を可能にします。
また、トレーニング データセットと入力画像の両方を、あたかも同じカメラで取得されたかのように調和させる画像修正ステップも導入します。これは、問題に固有のスケール深度のあいまいさを軽減するのに役立ちます。
私たちは、3 つの公開ベンチマークにわたるいくつかのベースラインと最先端のアプローチに対する評価におけるフレームワークの有効性を検証します。
要約(オリジナル)
Predicting camera-space hand meshes from single RGB images is crucial for enabling realistic hand interactions in 3D virtual and augmented worlds. Previous work typically divided the task into two stages: given a cropped image of the hand, predict meshes in relative coordinates, followed by lifting these predictions into camera space in a separate and independent stage, often resulting in the loss of valuable contextual and scale information. To prevent the loss of these cues, we propose unifying these two stages into an end-to-end solution that addresses the 2D-3D correspondence problem. This solution enables back-propagation from camera space outputs to the rest of the network through a new differentiable global positioning module. We also introduce an image rectification step that harmonizes both the training dataset and the input image as if they were acquired with the same camera, helping to alleviate the inherent scale-depth ambiguity of the problem. We validate the effectiveness of our framework in evaluations against several baselines and state-of-the-art approaches across three public benchmarks.
arxiv情報
著者 | Eugene Valassakis,Guillermo Garcia-Hernando |
発行日 | 2024-07-22 17:59:01+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google