要約
過去20年にわたって、研究者は人間の群衆をシミュレートすることに大きな進歩を遂げてきましたが、これらの努力は衝突回避などの低レベルのタスクや、パスフォローや群れなどの狭い範囲の行動に主に焦点を当てています。
ただし、魅力的な群衆のシーンを作成するには、単なる機能的な動き以上のものが必要です。エージェント、環境、および互いの間の高レベルの相互作用を時間の経過とともにキャプチャする必要があります。
この問題に対処するために、高レベルの群衆行動を作成するタスクを自動化するための生成モデルであるGen-Cを紹介します。
Gen-Cは、大規模な言語モデル(LLM)を活用して限られた一連の群衆シナリオを生成することにより、実際のクラウドビデオデータを収集および注釈を付けるという労働集約的で挑戦的なタスクをバイパスします。これは、シミュレーションを通じて拡張および一般化され、仮想エージェントのアクションと相互作用をモデル化する時間拡大グラフを構築します。
私たちの方法では、以前のネットワークの条件によって導かれる2つの変分グラフ自動エンコーダーを採用しています。1つは、グラフ構造(エージェント相互作用)の潜在スペースを学習することに専念し、もう1つはノード機能(エージェントアクションとナビゲーション)です。
このセットアップにより、柔軟な生成の動的な群衆の相互作用が可能になります。
訓練されたモデルは、自然言語に条件付けられ、ユーザーがテキストの説明から新しい群衆の行動を統合できるようにすることができます。
大学のキャンパスと駅の2つのシナリオでアプローチの有効性を実証し、エージェントが複雑な相互作用と高レベルの意思決定パターンを反映するさまざまな動的な動作を示す多様な仮想環境に住む可能性を示しています。
要約(オリジナル)
Over the past two decades, researchers have made significant advancements in simulating human crowds, yet these efforts largely focus on low-level tasks like collision avoidance and a narrow range of behaviors such as path following and flocking. However, creating compelling crowd scenes demands more than just functional movement-it requires capturing high-level interactions between agents, their environment, and each other over time. To address this issue, we introduce Gen-C, a generative model to automate the task of authoring high-level crowd behaviors. Gen-C bypasses the labor-intensive and challenging task of collecting and annotating real crowd video data by leveraging a large language model (LLM) to generate a limited set of crowd scenarios, which are subsequently expanded and generalized through simulations to construct time-expanded graphs that model the actions and interactions of virtual agents. Our method employs two Variational Graph Auto-Encoders guided by a condition prior network: one dedicated to learning a latent space for graph structures (agent interactions) and the other for node features (agent actions and navigation). This setup enables the flexible generation of dynamic crowd interactions. The trained model can be conditioned on natural language, empowering users to synthesize novel crowd behaviors from text descriptions. We demonstrate the effectiveness of our approach in two scenarios, a University Campus and a Train Station, showcasing its potential for populating diverse virtual environments with agents exhibiting varied and dynamic behaviors that reflect complex interactions and high-level decision-making patterns.
arxiv情報
著者 | Andreas Panayiotou,Panayiotis Charalambous,Ioannis Karamouzas |
発行日 | 2025-04-02 17:33:53+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google