要約
テキストからモーションの生成の最近の進歩は有望な結果を示していますが、通常、すべての個人が単一のユニットとしてグループ化されていると想定しています。
これらの方法をスケーリングして、より大きな群衆を処理し、個人が特定のイベントに適切に対応することを保証することは依然として重要な課題です。
これは主に、グループの組織化、アクティビティの計画、相互作用の調整、制御可能なモーション生成を含むシーン計画の複雑さによるものです。
このホワイトペーパーでは、集団モーション生成の最初のゼロショットフレームワークであるCrowdMogenを提示します。これは、個人を効果的にグループ化し、テキストプロンプトからイベントに合わせたモーションシーケンスを生成します。
1)効果的なシーン計画モジュールを監視した方法でトレーニングするために利用可能なデータセットによって制限されているため、代わりに、事前に訓練された大手言語モデル(LLM)を活用して個人を異なるグループに編成するクラウドシーンプランナーを提案します。
LLMはグループ部門に高レベルのガイダンスを提供しますが、人間の動きの低レベルの理解がありません。
これに対処するために、コンテキストに適したアクティビティを生成する前に、SMPLベースのジョイントを統合することをさらに提案します。これは、ジョイントの軌跡とテキストの説明の両方で構成されています。
2)第二に、割り当てられたアクティビティを生成ネットワークに組み込むために、マルチステップ除去プロセス中に空間的制約を維持し、共同でアクティビティを共同でトランスベースのネットワークに統合する集合モーションジェネレーターを導入します。
広範な実験は、クラウドモーゲンが以前のアプローチを大幅に上回り、空間的に一貫性のある現実的なイベント駆動型モーションシーケンスを提供することを示しています。
集合運動生成の最初の枠組みとして、CrowdMogenは、都市のシミュレーション、群衆計画、およびその他の大規模なインタラクティブ環境のアプリケーションを前進させる可能性があります。
要約(オリジナル)
While recent advances in text-to-motion generation have shown promising results, they typically assume all individuals are grouped as a single unit. Scaling these methods to handle larger crowds and ensuring that individuals respond appropriately to specific events remains a significant challenge. This is primarily due to the complexities of scene planning, which involves organizing groups, planning their activities, and coordinating interactions, and controllable motion generation. In this paper, we present CrowdMoGen, the first zero-shot framework for collective motion generation, which effectively groups individuals and generates event-aligned motion sequences from text prompts. 1) Being limited by the available datasets for training an effective scene planning module in a supervised manner, we instead propose a crowd scene planner that leverages pre-trained large language models (LLMs) to organize individuals into distinct groups. While LLMs offer high-level guidance for group divisions, they lack the low-level understanding of human motion. To address this, we further propose integrating an SMPL-based joint prior to generate context-appropriate activities, which consists of both joint trajectories and textual descriptions. 2) Secondly, to incorporate the assigned activities into the generative network, we introduce a collective motion generator that integrates the activities into a transformer-based network in a joint-wise manner, maintaining the spatial constraints during the multi-step denoising process. Extensive experiments demonstrate that CrowdMoGen significantly outperforms previous approaches, delivering realistic, event-driven motion sequences that are spatially coherent. As the first framework of collective motion generation, CrowdMoGen has the potential to advance applications in urban simulation, crowd planning, and other large-scale interactive environments.
arxiv情報
著者 | Yukang Cao,Xinying Guo,Mingyuan Zhang,Haozhe Xie,Chenyang Gu,Ziwei Liu |
発行日 | 2025-05-09 17:25:34+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google