IMoS: Intent-Driven Full-Body Motion Synthesis for Human-Object Interactions

要約

簡単な指示で、シーン内の仮想キャラクターを周囲のオブジェクトと相互作用させることはできますか?
そのような動きを、さまざまなオブジェクトと命令のセットでもっともらしく合成することは可能ですか?
これらの質問に触発されて、指定されたアクションを実行する仮想人間キャラクターの全身モーションを、手の届く範囲に配置された 3D オブジェクトと合成する最初のフレームワークを提示します。
私たちのシステムは、仮想キャラクターのオブジェクトと関連する意図を指定するテキスト命令を入力として受け取り、全身モーションのさまざまなシーケンスを出力します。
これは、全身動作合成法が一般に物体の相互作用を考慮せず、人間と物体の相互作用法が主に物体をつかむための手や指の動きの合成に焦点を当てている既存の研究とは対照的です。
意図駆動型の全身モーションジェネレーターを設計することで目的を達成します。このジェネレーターは、一対の分離された条件付き変分オートエンコーダー (CVAE) を使用して、身体部分の動きを自己回帰的に学習します。
また、オブジェクトが合成されたキャラクターの手の中に収まるように、6 つの自由度 (6DoF) でオブジェクトの位置を最適化します。
提案した方法をモーション合成の既存の方法と比較し、意図駆動型のモーション合成のタスクのための新しくより強力な最先端技術を確立します。
ユーザー調査を通じて、現在の最先端の方法と比較して、80% 以上のシナリオで、合成された全身モーションが参加者によりリアルに見え、
いくつかの機会にグラウンドトゥルース。

要約(オリジナル)

Can we make virtual characters in a scene interact with their surrounding objects through simple instructions? Is it possible to synthesize such motion plausibly with a diverse set of objects and instructions? Inspired by these questions, we present the first framework to synthesize the full-body motion of virtual human characters performing specified actions with 3D objects placed within their reach. Our system takes as input textual instructions specifying the objects and the associated intentions of the virtual characters and outputs diverse sequences of full-body motions. This is in contrast to existing work, where full-body action synthesis methods generally do not consider object interactions, and human-object interaction methods focus mainly on synthesizing hand or finger movements for grasping objects. We accomplish our objective by designing an intent-driven full-body motion generator, which uses a pair of decoupled conditional variational autoencoders (CVAE) to learn the motion of the body parts in an autoregressive manner. We also optimize for the positions of the objects with six degrees of freedom (6DoF) such that they plausibly fit within the hands of the synthesized characters. We compare our proposed method with the existing methods of motion synthesis and establish a new and stronger state-of-the-art for the task of intent-driven motion synthesis. Through a user study, we further show that our synthesized full-body motions appear more realistic to the participants in more than 80% of scenarios compared to the current state-of-the-art methods, and are perceived to be as good as the ground truth on several occasions.

arxiv情報

著者 Anindita Ghosh,Rishabh Dabral,Vladislav Golyanik,Christian Theobalt,Philipp Slusallek
発行日 2022-12-16 18:39:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.GR, cs.LG パーマリンク