Fg-T2M: Fine-Grained Text-Driven Human Motion Generation via Diffusion Model

要約

コンピューター ビジョンにおけるテキスト駆動の人間のモーション生成は、重要であると同時に困難でもあります。
しかし、現在の方法は、決定論的または不正確なモーション シーケンスの生成に限定されており、特定のテキスト記述に準拠するために必要な時間的および空間的関係を効果的に制御できません。
この研究では、正確なテキスト記述をサポートする、高品質で条件付きの人間の動作シーケンスを生成するためのきめ細かい方法を提案します。
私たちのアプローチは 2 つの主要なコンポーネントで構成されます。1) テキスト情報を最大限に活用するための正確かつ完全な言語機能を構築する言語構造支援モジュール。
2) 浅いグラフ ニューラル ネットワークと深いグラフ ニューラル ネットワークから近傍および全体的な意味論的言語学的特徴を学習して多段階の推論を実現する、コンテキスト認識型の進歩的推論モジュール。
実験の結果、私たちのアプローチは HumanML3D および KIT テスト セットでのテキスト駆動のモーション生成方法よりも優れたパフォーマンスを発揮し、テキスト条件に対してより視覚的に確認できるモーションを生成することがわかりました。

要約(オリジナル)

Text-driven human motion generation in computer vision is both significant and challenging. However, current methods are limited to producing either deterministic or imprecise motion sequences, failing to effectively control the temporal and spatial relationships required to conform to a given text description. In this work, we propose a fine-grained method for generating high-quality, conditional human motion sequences supporting precise text description. Our approach consists of two key components: 1) a linguistics-structure assisted module that constructs accurate and complete language feature to fully utilize text information; and 2) a context-aware progressive reasoning module that learns neighborhood and overall semantic linguistics features from shallow and deep graph neural networks to achieve a multi-step inference. Experiments show that our approach outperforms text-driven motion generation methods on HumanML3D and KIT test sets and generates better visually confirmed motion to the text conditions.

arxiv情報

著者 Yin Wang,Zhiying Leng,Frederick W. B. Li,Shun-Cheng Wu,Xiaohui Liang
発行日 2023-09-12 14:43:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.MM パーマリンク