要約
長期にわたるヒューマンシーンとシーンのインタラクションをシミュレートすることは、挑戦的ですが魅力的な作業です。
これまでの作品では、物理ベースのアニメーションの詳細な物語を伴う長期にわたる人間のシーンのインタラクションの生成に効果的に取り組んでいませんでした。
この論文では、長期にわたる物理的な妥当性のある人間とシーンのインタラクションを計画および制御するための新しいフレームワークを紹介します。
一方で、スタイリッシュな人間の移動やシーンとのインタラクションを含む映画や番組はインターネット上で豊富に入手可能であり、脚本計画のための豊富なデータ ソースを提供します。
一方、大規模言語モデル (LLM) は、論理的なストーリーラインを理解して生成できます。
これにより、LLM ベースのパイプラインを使用してビデオからスクリプトを抽出し、LLM を使用して新しいスクリプトを模倣して作成し、複雑な時系列の人間の行動や環境との相互作用をキャプチャすることで、この 2 つを融合することができました。
これを活用することで、言語理解とシーン理解の両方を達成する二重認識ポリシーを利用して、文脈的および空間的制約内でキャラクターの動きをガイドします。
トレーニングと評価を容易にするために、現実世界のビデオから抽出された多様なモーション シーケンスを含む包括的な計画データセットを提供し、それらを大規模な言語モデルで拡張します。
また、既存の運動学データセットからモーション クリップを収集して再アノテーションを付け、ポリシーが多様なスキルを学習できるようにします。
広範な実験により、汎用性の高いタスク実行におけるフレームワークの有効性とさまざまなシナリオへの一般化能力が実証され、既存の方法と比較してパフォーマンスが大幅に向上していることがわかります。
私たちのコードとデータは間もなく一般公開される予定です。
要約(オリジナル)
Simulating long-term human-scene interaction is a challenging yet fascinating task. Previous works have not effectively addressed the generation of long-term human scene interactions with detailed narratives for physics-based animation. This paper introduces a novel framework for the planning and controlling of long-horizon physical plausible human-scene interaction. On the one hand, films and shows with stylish human locomotions or interactions with scenes are abundantly available on the internet, providing a rich source of data for script planning. On the other hand, Large Language Models (LLMs) can understand and generate logical storylines. This motivates us to marry the two by using an LLM-based pipeline to extract scripts from videos, and then employ LLMs to imitate and create new scripts, capturing complex, time-series human behaviors and interactions with environments. By leveraging this, we utilize a dual-aware policy that achieves both language comprehension and scene understanding to guide character motions within contextual and spatial constraints. To facilitate training and evaluation, we contribute a comprehensive planning dataset containing diverse motion sequences extracted from real-world videos and expand them with large language models. We also collect and re-annotate motion clips from existing kinematic datasets to enable our policy learn diverse skills. Extensive experiments demonstrate the effectiveness of our framework in versatile task execution and its generalization ability to various scenarios, showing remarkably enhanced performance compared with existing methods. Our code and data will be publicly available soon.
arxiv情報
著者 | Wenjia Wang,Liang Pan,Zhiyang Dou,Zhouyingcheng Liao,Yuke Lou,Lei Yang,Jingbo Wang,Taku Komura |
発行日 | 2024-11-29 18:36:15+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google