CrowdMoGen: Zero-Shot Text-Driven Collective Motion Generation

要約

群集モーション生成は、アニメやゲームなどのエンターテインメント業界だけでなく、都市シミュレーションや計画などの戦略的分野でも不可欠です。
この新しいタスクでは、特定の空間的および意味論的制約の下で群衆のダイナミクスを現実的に合成するために、制御と生成の複雑な統合が必要ですが、その課題はまだ十分に調査されていません。
一方で、既存の人間の動作生成モデルは通常、個人の行動に焦点を当てており、集団行動の複雑さを無視しています。
一方、最近の多人数モーション生成手法は、事前に定義されたシナリオに大きく依存しており、固定された少数の人間間のインタラクションに限定されているため、実用性が妨げられています。
これらの課題を克服するために、大規模言語モデル (LLM) の力を利用して集合知をガイダンスとしてモーション生成フレームワークに組み込むゼロショット テキスト駆動フレームワークである CrowdMoGen を導入します。これにより、群集モーションの一般化可能な計画と生成が可能になります。
ペアになったトレーニング データなし。
私たちのフレームワークは 2 つの重要なコンポーネントで構成されています。1) 特定のシーンのコンテキストまたは導入された摂動に従ってモーションとダイナミクスを調整する方法を学習する群衆シーン プランナー、2) 全体的な計画に基づいて必要な集団モーションを効率的に合成する集団モーション ジェネレーター。
広範な定量的および定性的な実験により、私たちのフレームワークの有効性が検証されました。このフレームワークは、群衆運動生成タスクにスケーラブルで一般化可能なソリューションを提供することで重大なギャップを埋めるだけでなく、高レベルの現実性と柔軟性も達成します。

要約(オリジナル)

Crowd Motion Generation is essential in entertainment industries such as animation and games as well as in strategic fields like urban simulation and planning. This new task requires an intricate integration of control and generation to realistically synthesize crowd dynamics under specific spatial and semantic constraints, whose challenges are yet to be fully explored. On the one hand, existing human motion generation models typically focus on individual behaviors, neglecting the complexities of collective behaviors. On the other hand, recent methods for multi-person motion generation depend heavily on pre-defined scenarios and are limited to a fixed, small number of inter-person interactions, thus hampering their practicality. To overcome these challenges, we introduce CrowdMoGen, a zero-shot text-driven framework that harnesses the power of Large Language Model (LLM) to incorporate the collective intelligence into the motion generation framework as guidance, thereby enabling generalizable planning and generation of crowd motions without paired training data. Our framework consists of two key components: 1) Crowd Scene Planner that learns to coordinate motions and dynamics according to specific scene contexts or introduced perturbations, and 2) Collective Motion Generator that efficiently synthesizes the required collective motions based on the holistic plans. Extensive quantitative and qualitative experiments have validated the effectiveness of our framework, which not only fills a critical gap by providing scalable and generalizable solutions for Crowd Motion Generation task but also achieves high levels of realism and flexibility.

arxiv情報

著者 Xinying Guo,Mingyuan Zhang,Haozhe Xie,Chenyang Gu,Ziwei Liu
発行日 2024-07-08 17:59:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク