Synthesizing Long-Term Human Motions with Diffusion Models via Coherent Sampling

要約

テキストからモーションへの生成は注目されつつあるが、既存の手法のほとんどは、単一の動作を記述する単一の文に対応する短期的なモーションの生成に限定されている。しかし、テキストストリームが連続的なモーションのシーケンスを記述している場合、各センテンスに対応する生成されたモーションは首尾一貫してリンクされていない可能性がある。既存の長期的モーション生成方法は、主に2つの問題に直面している。第一に、それらはコヒーレントなモーションを直接生成することができず、生成されたアクションを処理するために補間などの付加的な操作を必要とする。第二に、将来の動作が以前の動作に与える影響を考慮することなく、自己回帰的に後続の動作を生成する。これらの問題に対処するために、我々は、2つのオプションのコヒーレントサンプリング手法と過去条件付き拡散モデルを利用する新しいアプローチを提案する:過去インペインティングサンプリング(Past Inpainting Sampling)とコンポジション遷移サンプリング(Compositional Transition Sampling)である。過去インペインティングサンプリングは、過去の動作を条件として扱うことで、後続の動作を補完し、一方、構図遷移サンプリングは、遷移の分布を、異なるテキストプロンプトによって導かれる2つの隣接する動作の合成としてモデル化する。我々の実験結果は、我々の提案する手法が、ユーザが指示する長いテキストストリームによって制御される、構成的でコヒーレントな長期的3D人体運動を生成できることを示している。なお、本論文のコードは、(英文)heref{https://github.com/yangzhao1230/PCMDM}{https://github.com/yangzhao1230/PCMDM}に掲載されている。

要約(オリジナル)

Text-to-motion generation has gained increasing attention, but most existing methods are limited to generating short-term motions that correspond to a single sentence describing a single action. However, when a text stream describes a sequence of continuous motions, the generated motions corresponding to each sentence may not be coherently linked. Existing long-term motion generation methods face two main issues. Firstly, they cannot directly generate coherent motions and require additional operations such as interpolation to process the generated actions. Secondly, they generate subsequent actions in an autoregressive manner without considering the influence of future actions on previous ones. To address these issues, we propose a novel approach that utilizes a past-conditioned diffusion model with two optional coherent sampling methods: Past Inpainting Sampling and Compositional Transition Sampling. Past Inpainting Sampling completes subsequent motions by treating previous motions as conditions, while Compositional Transition Sampling models the distribution of the transition as the composition of two adjacent motions guided by different text prompts. Our experimental results demonstrate that our proposed method is capable of generating compositional and coherent long-term 3D human motions controlled by a user-instructed long text stream. The code is available at \href{https://github.com/yangzhao1230/PCMDM}{https://github.com/yangzhao1230/PCMDM}.

arxiv情報

著者 Zhao Yang,Bing Su,Ji-Rong Wen
発行日 2023-08-03 16:18:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CV パーマリンク