要約
タイトル:InterGen:複雑な相互作用下での多人数モーション生成における拡散ベースの手法
要約:
– 拡散法によるリアルな人間の動きの生成には大きな進展が見られているが、複雑な複数人間の相互作用を大幅に無視している。
– InterGenは、人間同士の相互作用をモーション拡散プロセスに組み込む効果的な拡散法の手法であり、素人ユーザーがテキスト指示だけで高品質な2人の相互作用モーションをカスタマイズできるようになる。
– まず、InterHumanという多様な2人の相互作用に関する正確なスケルトンモーションと16,756の自然言語説明を備えたマルチモーダルデータセットを貢献する。
– アルゴリズム側では、モーション拡散モデルを2人の相互作用に向けて慎重にカスタマイズする。
– 相互作用中の人間の対称性を処理するには、2つの協調トランスフォーマーベースのノイズ除去器を提案し、明示的に重みを共有し、相互注意メカニズムを備えた接続処理を行う。
– 次に、2人の出演者間のグローバル関係を明示的に定式化するモーション入力の新しい表現を提案する。
– さらに、空間関係をエンコードする2つの新しい正則化項を導入し、対応する阻力スキームを装備して、相互作用拡散モデルのトレーニング中に使用する。
– 広範な実験により、InterGenの効果と汎用性が検証された。特に、従来の手法よりも多様で説得力のある2人のモーションを生成でき、人間の相互作用の様々なDownstreamアプリケーションを可能にする。
要約(オリジナル)
We have recently seen tremendous progress in diffusion advances for generating realistic human motions. Yet, they largely disregard the rich multi-human interactions. In this paper, we present InterGen, an effective diffusion-based approach that incorporates human-to-human interactions into the motion diffusion process, which enables layman users to customize high-quality two-person interaction motions, with only text guidance. We first contribute a multimodal dataset, named InterHuman. It consists of about 107M frames for diverse two-person interactions, with accurate skeletal motions and 16,756 natural language descriptions. For the algorithm side, we carefully tailor the motion diffusion model to our two-person interaction setting. To handle the symmetry of human identities during interactions, we propose two cooperative transformer-based denoisers that explicitly share weights, with a mutual attention mechanism to further connect the two denoising processes. Then, we propose a novel representation for motion input in our interaction diffusion model, which explicitly formulates the global relations between the two performers in the world frame. We further introduce two novel regularization terms to encode spatial relations, equipped with a corresponding damping scheme during the training of our interaction diffusion model. Extensive experiments validate the effectiveness and generalizability of InterGen. Notably, it can generate more diverse and compelling two-person motions than previous methods and enables various downstream applications for human interactions.
arxiv情報
著者 | Han Liang,Wenqian Zhang,Wenxuan Li,Jingyi Yu,Lan Xu |
発行日 | 2023-04-12 08:12:29+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, OpenAI