要約
制御可能なビデオ生成(CVG)は迅速に進歩していますが、複数のアクターが騒々しい制御信号の下で位置を移動、相互作用し、交換する必要がある場合、現在のシステムが流れています。
このギャップには、単一の参照画像と独立したポーズマスクストリームを長くフォトリアリスティックなビデオに変換しながら、すべてのアイデンティティを厳密に保持する最初のエンドツーエンドの拡散フレームワークであるDancetogetherで対処します。
新しいMaskposeadapterは、堅牢な追跡マスクと意味的にリッチなものと騒々しいヒートマップを融合させて、「Who」と「How」をすべての除去ステップで結合し、アイデンティティのドリフトと外観を排除します。
大規模なトレーニングと評価のために、(i)Pailefs-4k、7,000以上の異なるIDを持つ26時間のデュアルスカター映像、(ii)Humanod-robot-300、迅速なクロスドメイン転送のための1時間のヒューマノイド – ロボットインタラクションセット、(iii)bencling danceval-100のbencing bencling dance frack benchling for suting for sute for sute for sute for benchmarkを紹介します。
フィギュアスケート。
一緒になって、Dancetogetherは以前の芸術を大幅に上回っています。
さらに、1時間の微調整により、具体化されたタスクとHRIのタスクに幅広い一般化を強調している1時間の微調整により、説得力のある人間のロボットビデオが得られます。
広範なアブレーションは、これらの利益にとって永続的なアイデンティティアクション結合が重要であることを確認しています。
私たちのモデル、データセット、およびベンチマークは、CVGを単一の被験者の振り付けから構成的に制御可能なマルチアクター相互作用に持ち上げ、デジタル生産、シミュレーション、および具体化されたインテリジェンスの新しい道を開きます。
ビデオデモとコードはhttps://dancetog.github.io/で入手できます。
要約(オリジナル)
Controllable video generation (CVG) has advanced rapidly, yet current systems falter when more than one actor must move, interact, and exchange positions under noisy control signals. We address this gap with DanceTogether, the first end-to-end diffusion framework that turns a single reference image plus independent pose-mask streams into long, photorealistic videos while strictly preserving every identity. A novel MaskPoseAdapter binds ‘who’ and ‘how’ at every denoising step by fusing robust tracking masks with semantically rich-but noisy-pose heat-maps, eliminating the identity drift and appearance bleeding that plague frame-wise pipelines. To train and evaluate at scale, we introduce (i) PairFS-4K, 26 hours of dual-skater footage with 7,000+ distinct IDs, (ii) HumanRob-300, a one-hour humanoid-robot interaction set for rapid cross-domain transfer, and (iii) TogetherVideoBench, a three-track benchmark centered on the DanceTogEval-100 test suite covering dance, boxing, wrestling, yoga, and figure skating. On TogetherVideoBench, DanceTogether outperforms the prior arts by a significant margin. Moreover, we show that a one-hour fine-tune yields convincing human-robot videos, underscoring broad generalization to embodied-AI and HRI tasks. Extensive ablations confirm that persistent identity-action binding is critical to these gains. Together, our model, datasets, and benchmark lift CVG from single-subject choreography to compositionally controllable, multi-actor interaction, opening new avenues for digital production, simulation, and embodied intelligence. Our video demos and code are available at https://DanceTog.github.io/.
arxiv情報
著者 | Junhao Chen,Mingjin Chen,Jianjin Xu,Xiang Li,Junting Dong,Mingze Sun,Puhua Jiang,Hongxiang Li,Yuhang Yang,Hao Zhao,Xiaoxiao Long,Ruqi Huang |
発行日 | 2025-05-23 16:37:14+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google