要約
テキスト-トゥ-モーション生成は、最近、主に空白の背景における人間の動きシーケンスを生成することに焦点を当てて、大きな研究関心を集めている。しかし、人間の動きは一般的に多様な3Dシーン内で発生するため、シーンを考慮したテキスト-トゥ-モーション生成手法の探求が促されている。しかし、既存のシーン認識手法は、多くの場合、多様な3Dシーンにおける大規模なグランドトゥルースモーションシーケンスに依存しており、高価なコストのために実用的な課題を提起している。この課題を軽減するために、我々は初めて、シーン認識能力を持つ事前訓練された空白背景モーションジェネレータを効率的に強化する、⾳びない⾳びを認識する⾳びを認識する⾳びを認識する⾳びを認識する⾳びを認識する⾳びを認識する⾳びを認識する⾳びを認識する⾳びを提案する。具体的には、与えられた3Dシーンとテキスト記述を条件として、シーンを意識したモーションガイダンスを推論、予測、検証するために基礎モデルを一緒に採用します。次に、このモーションガイダンスを、2つの修正を加えた空背景モーションジェネレータに組み込み、シーンを意識したテキスト駆動モーションシーケンスを実現する。提案するフレームワークの有効性と汎用性は、広範な実験によって実証されている。本論文のコードは、(参考文献{https://tstmotion.github.io/}{プロジェクトページ})で公開する。
要約(オリジナル)
Text-to-motion generation has recently garnered significant research interest, primarily focusing on generating human motion sequences in blank backgrounds. However, human motions commonly occur within diverse 3D scenes, which has prompted exploration into scene-aware text-to-motion generation methods. Yet, existing scene-aware methods often rely on large-scale ground-truth motion sequences in diverse 3D scenes, which poses practical challenges due to the expensive cost. To mitigate this challenge, we are the first to propose a \textbf{T}raining-free \textbf{S}cene-aware \textbf{T}ext-to-\textbf{Motion} framework, dubbed as \textbf{TSTMotion}, that efficiently empowers pre-trained blank-background motion generators with the scene-aware capability. Specifically, conditioned on the given 3D scene and text description, we adopt foundation models together to reason, predict and validate a scene-aware motion guidance. Then, the motion guidance is incorporated into the blank-background motion generators with two modifications, resulting in scene-aware text-driven motion sequences. Extensive experiments demonstrate the efficacy and generalizability of our proposed framework. We release our code in \href{https://tstmotion.github.io/}{Project Page}.
arxiv情報
著者 | Ziyan Guo,Haoxuan Qu,Hossein Rahmani,Dewen Soh,Ping Hu,Qiuhong Ke,Jun Liu |
発行日 | 2025-05-05 05:14:20+00:00 |
arxivサイト | arxiv_id(pdf) |