GRIP: Generating Interaction Poses Using Latent Consistency and Spatial Cues

要約

手は器用で汎用性の高いマニピュレーターであり、人間が物体やその環境とどのように相互作用するかにおいて中心的役割を果たします。
したがって、個々の指の微妙な動きを含む現実的な手とオブジェクトの相互作用をモデル化することは、コンピューター グラフィックス、コンピューター ビジョン、および複合現実のアプリケーションにとって重要です。
3D でオブジェクトと対話する人間のキャプチャとモデリングに関するこれまでの研究は、身体とオブジェクトの動きに重点を置き、手のポーズを無視することがよくありました。
対照的に、私たちは、身体とオブジェクトの 3D モーションを入力として受け取り、オブジェクトのインタラクション前、インタラクション中、インタラクション後の両手の現実的な動作を合成する学習ベースの手法である GRIP を導入します。
手の動きを合成する前の準備ステップとして、まずネットワーク ANet を使用して腕の動きのノイズを除去します。
次に、身体と物体の時空間関係を利用して 2 種類の新しい時間的インタラクション キューを抽出し、それらを 2 段階の推論パイプラインで使用して手の動きを生成します。
最初の段階では、潜在空間 (LTC) でモーションの時間的一貫性を強制し、一貫したインタラクション モーションを生成する新しいアプローチを導入します。
第 2 段階では、GRIP は手のオブジェクトの侵入を避けるために洗練された手のポーズを生成します。
ノイズの多いボディとオブジェクトの動きのシーケンスが与えられると、GRIP は手とオブジェクトのインタラクションを含めるようにそれらをアップグレードします。
定量的実験と知覚研究は、GRIP がベースライン手法を上回り、さまざまなモーション キャプチャ データセットからの目に見えないオブジェクトやモーションを一般化することを実証しています。

要約(オリジナル)

Hands are dexterous and highly versatile manipulators that are central to how humans interact with objects and their environment. Consequently, modeling realistic hand-object interactions, including the subtle motion of individual fingers, is critical for applications in computer graphics, computer vision, and mixed reality. Prior work on capturing and modeling humans interacting with objects in 3D focuses on the body and object motion, often ignoring hand pose. In contrast, we introduce GRIP, a learning-based method that takes, as input, the 3D motion of the body and the object, and synthesizes realistic motion for both hands before, during, and after object interaction. As a preliminary step before synthesizing the hand motion, we first use a network, ANet, to denoise the arm motion. Then, we leverage the spatio-temporal relationship between the body and the object to extract two types of novel temporal interaction cues, and use them in a two-stage inference pipeline to generate the hand motion. In the first stage, we introduce a new approach to enforce motion temporal consistency in the latent space (LTC), and generate consistent interaction motions. In the second stage, GRIP generates refined hand poses to avoid hand-object penetrations. Given sequences of noisy body and object motion, GRIP upgrades them to include hand-object interaction. Quantitative experiments and perceptual studies demonstrate that GRIP outperforms baseline methods and generalizes to unseen objects and motions from different motion-capture datasets.

arxiv情報

著者 Omid Taheri,Yi Zhou,Dimitrios Tzionas,Yang Zhou,Duygu Ceylan,Soren Pirk,Michael J. Black
発行日 2023-08-22 17:59:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク