要約
「どうすれば、映画の台本の 3D キャラクターをアニメートしたり、ロボットに何をしてほしいかを伝えるだけでロボットを動かしたりできるでしょうか?」
「どれだけ非構造的で複雑な文章を作っても、そこからもっともらしい動きを生み出すことができるでしょうか?」
この分野はまだ初期段階にあるため、これらは長期的に解決する必要がある問題です。
これらの問題に着想を得て、複雑な入力文を処理する構成アクションを生成するための新しい手法を提示します。
出力は、入力文のアクションを表す 3D ポーズ シーケンスです。
自然言語文と特定のモーションに対応する 3D ポーズ シーケンスとの間のより細かいジョイント レベル マッピングを調査するために、階層型 2 ストリーム シーケンシャル モデルを提案します。
上半身と下半身の動きにそれぞれ 1 つずつ、モーションの 2 つの多様な表現を学習します。
私たちのモデルは、単一のアクションを説明する短い文だけでなく、複数の連続したアクションや重ね合わせたアクションを説明する長い合成文に対しても、もっともらしいポーズ シーケンスを生成できます。
提案されたモデルを、人間が注釈を付けた文章を含む 3D ポーズ データを含む、公開されている KIT Motion-Language Dataset で評価します。
実験結果は、私たちのモデルが客観的評価においてテキストベースのモーション合成の最先端を 50% のマージンで前進させることを示しています。
ユーザー調査に基づく定性的な評価は、合成されたモーションが、短い文章と構成的な文章の両方で、グラウンド トゥルース モーション キャプチャに最も近いと認識されていることを示しています。
要約(オリジナル)
‘How can we animate 3D-characters from a movie script or move robots by simply telling them what we would like them to do?’ ‘How unstructured and complex can we make a sentence and still generate plausible movements from it?’ These are questions that need to be answered in the long-run, as the field is still in its infancy. Inspired by these problems, we present a new technique for generating compositional actions, which handles complex input sentences. Our output is a 3D pose sequence depicting the actions in the input sentence. We propose a hierarchical two-stream sequential model to explore a finer joint-level mapping between natural language sentences and 3D pose sequences corresponding to the given motion. We learn two manifold representations of the motion — one each for the upper body and the lower body movements. Our model can generate plausible pose sequences for short sentences describing single actions as well as long compositional sentences describing multiple sequential and superimposed actions. We evaluate our proposed model on the publicly available KIT Motion-Language Dataset containing 3D pose data with human-annotated sentences. Experimental results show that our model advances the state-of-the-art on text-based motion synthesis in objective evaluations by a margin of 50%. Qualitative evaluations based on a user study indicate that our synthesized motions are perceived to be the closest to the ground-truth motion captures for both short and compositional sentences.
arxiv情報
著者 | Anindita Ghosh,Noshaba Cheema,Cennet Oguz,Christian Theobalt,Philipp Slusallek |
発行日 | 2023-01-23 11:17:09+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google