要約
既存の補間手法は、疎にサンプリングされたキーフレーム間の中間フレームを生成するために、事前に訓練されたビデオ拡散プリオールを使用する。3次元幾何学的なガイダンスがない場合、これらの手法は、複雑で関節のある人間の動きに対して、もっともらしい結果を生成するのに苦労し、合成されたダイナミクスの制御も限定的である。本論文では、PoseFuse3D Keyframe Interpolator (PoseFuse3D-KI)を紹介します。PoseFuse3D Keyframe Interpolatorは、Controllable Human-centric Keyframe Interpolation (CHIK)の拡散プロセスに3Dヒューマンガイダンス信号を統合する新しいフレームワークです。補間のための豊富な空間的・構造的手がかりを提供するために、3D情報に基づく制御モデルである我々のPoseFuse3Dは、3Dのジオメトリと形状を2Dの潜在条件空間に変換する新しいSMPL-Xエンコーダと、これらの3D手がかりを2Dのポーズ埋め込みと統合する融合ネットワークを備えています。評価のために、2Dポーズと3D SMPL-Xパラメータの両方でアノテーションされた新しいデータセットであるCHKI-Videoを構築する。CHKI-Videoにおいて、PoseFuse3D-KIは常に最先端のベースラインを上回り、PSNRで9%の改善、LPIPSで38%の削減を達成した。包括的なアブレーションは、我々のPoseFuse3Dモデルが補間の忠実度を向上させることを示している。
要約(オリジナル)
Existing interpolation methods use pre-trained video diffusion priors to generate intermediate frames between sparsely sampled keyframes. In the absence of 3D geometric guidance, these methods struggle to produce plausible results for complex, articulated human motions and offer limited control over the synthesized dynamics. In this paper, we introduce PoseFuse3D Keyframe Interpolator (PoseFuse3D-KI), a novel framework that integrates 3D human guidance signals into the diffusion process for Controllable Human-centric Keyframe Interpolation (CHKI). To provide rich spatial and structural cues for interpolation, our PoseFuse3D, a 3D-informed control model, features a novel SMPL-X encoder that transforms 3D geometry and shape into the 2D latent conditioning space, alongside a fusion network that integrates these 3D cues with 2D pose embeddings. For evaluation, we build CHKI-Video, a new dataset annotated with both 2D poses and 3D SMPL-X parameters. We show that PoseFuse3D-KI consistently outperforms state-of-the-art baselines on CHKI-Video, achieving a 9% improvement in PSNR and a 38% reduction in LPIPS. Comprehensive ablations demonstrate that our PoseFuse3D model improves interpolation fidelity.
arxiv情報
著者 | Zujin Guo,Size Wu,Zhongang Cai,Wei Li,Chen Change Loy |
発行日 | 2025-06-03 17:50:05+00:00 |
arxivサイト | arxiv_id(pdf) |