GENMO: A GENeralist Model for Human MOtion

要約

ヒューマンモーションモデリングは伝統的に、モーションの生成と推定を、特化したモデルによる異なるタスクに分離している。モーション生成モデルは、テキスト、オーディオ、キーフレームなどの入力から多様でリアルなモーションを生成することに重点を置き、モーション推定モデルは、ビデオなどの観察結果から正確なモーションの軌道を再構築することを目的としています。時間ダイナミクスと運動学の基礎となる表現を共有しているにもかかわらず、この分離はタスク間の知識伝達を制限し、別々のモデルを維持する必要がある。我々は、GENMOを提示する。GENMOは、モーション推定と生成を単一のフレームワークで橋渡しする、人間のモーションのための統一されたジェネラリストモデルである。私たちの重要な洞察は、動作推定を制約付き動作生成として再定式化することであり、そこでは出力動作は観測された条件信号を正確に満たさなければならない。回帰と拡散の相乗効果を活用することで、GENMOは正確なグローバルモーション推定を達成すると同時に、多様なモーション生成を可能にする。また、生成の多様性を向上させるために、2Dアノテーションとテキスト記述のあるin-the-wildビデオを利用する推定ガイド付き学習目的を導入する。さらに、我々の新しいアーキテクチャは、可変長のモーションや、異なる時間間隔での混合マルチモーダル条件(テキスト、オーディオ、ビデオ)を扱い、柔軟な制御を提供する。この統一的なアプローチは相乗的な利点を生み出す。すなわち、生成的事前知識はオクルージョンのような困難な条件下での推定モーションを改善し、一方、多様なビデオデータは生成能力を向上させる。広範な実験により、GENMOが単一のモデルで複数の人体運動タスクをうまく処理する汎化フレームワークとして有効であることが実証された。

要約(オリジナル)

Human motion modeling traditionally separates motion generation and estimation into distinct tasks with specialized models. Motion generation models focus on creating diverse, realistic motions from inputs like text, audio, or keyframes, while motion estimation models aim to reconstruct accurate motion trajectories from observations like videos. Despite sharing underlying representations of temporal dynamics and kinematics, this separation limits knowledge transfer between tasks and requires maintaining separate models. We present GENMO, a unified Generalist Model for Human Motion that bridges motion estimation and generation in a single framework. Our key insight is to reformulate motion estimation as constrained motion generation, where the output motion must precisely satisfy observed conditioning signals. Leveraging the synergy between regression and diffusion, GENMO achieves accurate global motion estimation while enabling diverse motion generation. We also introduce an estimation-guided training objective that exploits in-the-wild videos with 2D annotations and text descriptions to enhance generative diversity. Furthermore, our novel architecture handles variable-length motions and mixed multimodal conditions (text, audio, video) at different time intervals, offering flexible control. This unified approach creates synergistic benefits: generative priors improve estimated motions under challenging conditions like occlusions, while diverse video data enhances generation capabilities. Extensive experiments demonstrate GENMO’s effectiveness as a generalist framework that successfully handles multiple human motion tasks within a single model.

arxiv情報

著者 Jiefeng Li,Jinkun Cao,Haotian Zhang,Davis Rempe,Jan Kautz,Umar Iqbal,Ye Yuan
発行日 2025-05-02 17:59:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CV, cs.GR, cs.LG, cs.RO パーマリンク