FinePhys: Fine-grained Human Action Generation by Explicitly Incorporating Physical Laws for Effective Skeletal Guidance

要約

ビデオ生成の大幅な進歩にもかかわらず、特に細粒のセマンティクスと複雑な時間的ダイナミクスのモデリングにおいて、身体的にもっともらしい人間の行動を合成することは、持続的な課題のままです。
たとえば、「0.5ターンでのスイッチリープ」などの体操ルーチンを生成すると、現在の方法が大幅に困難になり、多くの場合、不十分な結果が得られます。
このギャップを埋めるために、私たちは、効果的な骨格ガイダンスを取得するために物理学を組み込んだ細かい人間の行動生成フレームワークであるFinephysを提案します。
具体的には、FinePhysは最初に2Dポーズをオンラインで推定し、次にコンテキスト内学習を介して2D対3Dディメンションリフティングを実行します。
純粋にデータ駆動型の3Dポーズの不安定性と制限された解釈可能性を軽減するために、Euler-Lagrange方程式によって支配された物理ベースの動きの再推定モジュールをさらに導入し、双方向の時間的更新を介して共同加速を計算します。
その後、物理的に予測される3Dポーズは、データ駆動型のポーズと融合され、拡散プロセスのためのマルチスケールの2Dヒートマップガイダンスを提供します。
FineGym(FX-Jump、FX-Turn、およびFX-Salto)の3つの細粒アクションサブセットで評価されているため、FinePhysは競合ベースラインを大幅に上回ります。
包括的な定性的な結果は、さらに自然でもっともらしい細かい人間の行動を生み出すFinephysの能力をさらに示しています。

要約(オリジナル)

Despite significant advances in video generation, synthesizing physically plausible human actions remains a persistent challenge, particularly in modeling fine-grained semantics and complex temporal dynamics. For instance, generating gymnastics routines such as ‘switch leap with 0.5 turn’ poses substantial difficulties for current methods, often yielding unsatisfactory results. To bridge this gap, we propose FinePhys, a Fine-grained human action generation framework that incorporates Physics to obtain effective skeletal guidance. Specifically, FinePhys first estimates 2D poses in an online manner and then performs 2D-to-3D dimension lifting via in-context learning. To mitigate the instability and limited interpretability of purely data-driven 3D poses, we further introduce a physics-based motion re-estimation module governed by Euler-Lagrange equations, calculating joint accelerations via bidirectional temporal updating. The physically predicted 3D poses are then fused with data-driven ones, offering multi-scale 2D heatmap guidance for the diffusion process. Evaluated on three fine-grained action subsets from FineGym (FX-JUMP, FX-TURN, and FX-SALTO), FinePhys significantly outperforms competitive baselines. Comprehensive qualitative results further demonstrate FinePhys’s ability to generate more natural and plausible fine-grained human actions.

arxiv情報

著者 Dian Shao,Mingfei Shi,Shengda Xu,Haodong Chen,Yongle Huang,Binglu Wang
発行日 2025-05-19 17:58:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク