Story-to-Motion: Synthesizing Infinite and Controllable Character Animation from Long Text

要約

ストーリーから人間の自然な動きを生成することは、アニメーション、ゲーム、映画業界の状況を変える可能性を秘めています。
Story-to-Motion という新しくてやりがいのあるタスクは、キャラクターがさまざまな場所に移動し、長いテキストの説明に基づいて特定の動作を実行する必要があるときに発生します。
このタスクでは、低レベルの制御 (軌道) と高レベルの制御 (モーション セマンティクス) の融合が必要です。
キャラクター制御およびテキストからモーションへのこれまでの研究では、関連する側面に取り組んできましたが、包括的な解決策は依然として見つかりません。キャラクター制御メソッドはテキストの記述を処理しないのに対し、テキストからモーションへのメソッドは位置の制約がなく、不安定なモーションが生成されることがよくあります。
これらの制限を考慮して、入力テキストに合わせて制御可能な無限に長い動きと軌道を生成する新しいシステムを提案します。
(1) 最新の大規模言語モデルを活用して、テキスト駆動型のモーション スケジューラとして機能し、長いテキストから一連の (テキスト、位置、継続時間) ペアを抽出します。
(2) 運動意味論的および軌道制約を伴う運動マッチングを組み込んだテキスト駆動型運動検索スキームを開発する。
(3) 不自然なポーズや足の滑りなど、トランジション動作における一般的なアーティファクトに対処するプログレッシブ マスク トランスフォーマーを設計します。
Story-to-Motion の最初の包括的なソリューションとしての先駆的な役割を超えて、当社のシステムは 3 つの異なるサブタスク (軌道追従、時間的アクションの合成、およびモーション ブレンディング) にわたって評価を受けており、以前の最先端のモーションよりも優れたパフォーマンスを発揮します。
全体的な合成方法。
ホームページ: https://story2motion.github.io/

要約(オリジナル)

Generating natural human motion from a story has the potential to transform the landscape of animation, gaming, and film industries. A new and challenging task, Story-to-Motion, arises when characters are required to move to various locations and perform specific motions based on a long text description. This task demands a fusion of low-level control (trajectories) and high-level control (motion semantics). Previous works in character control and text-to-motion have addressed related aspects, yet a comprehensive solution remains elusive: character control methods do not handle text description, whereas text-to-motion methods lack position constraints and often produce unstable motions. In light of these limitations, we propose a novel system that generates controllable, infinitely long motions and trajectories aligned with the input text. (1) We leverage contemporary Large Language Models to act as a text-driven motion scheduler to extract a series of (text, position, duration) pairs from long text. (2) We develop a text-driven motion retrieval scheme that incorporates motion matching with motion semantic and trajectory constraints. (3) We design a progressive mask transformer that addresses common artifacts in the transition motion such as unnatural pose and foot sliding. Beyond its pioneering role as the first comprehensive solution for Story-to-Motion, our system undergoes evaluation across three distinct sub-tasks: trajectory following, temporal action composition, and motion blending, where it outperforms previous state-of-the-art motion synthesis methods across the board. Homepage: https://story2motion.github.io/.

arxiv情報

著者 Zhongfei Qing,Zhongang Cai,Zhitao Yang,Lei Yang
発行日 2023-11-13 16:22:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.GR パーマリンク