Streaming Generation of Co-Speech Gestures via Accelerated Rolling Diffusion

要約

リアルタイムでの共同スピーチジェスチャーを生成するには、時間的一貫性と効率的なサンプリングの両方が必要です。
加速されたローリング拡散を導入します。これは、構造化された進行性ノイズスケジューリングでローリング拡散モデルを拡張するストリーミングジェスチャー生成のための新しいフレームワークであり、リアリズムと多様性を維持しながらシームレスな長シーケンスモーション合成を可能にします。
さらに、騒音スケジュールを段階的なはしごに再構築する新しいアプローチであるローリング拡散ラダーアクセラレーション(RDLA)を提案し、複数のフレームを同時に除去できるようにします。
これにより、モーションの一貫性を維持しながらサンプリング効率が大幅に向上し、視覚的な忠実度と時間的一貫性が高い2倍のスピードアップを達成します。
Zeggsのアプローチを評価し、実際の適用性のための強力なベンチマークを獲得します。
私たちのフレームワークは、拡散ベースのジェスチャー生成モデルに普遍的に適用され、ストリーミングアプローチに変換されます。
3つの最先端の方法に適用され、それらを一貫して上回り、リアルタイムの高忠実度の共発発点ジェスチャー合成に対する一般化可能で効率的なソリューションとしての有効性を示しています。

要約(オリジナル)

Generating co-speech gestures in real time requires both temporal coherence and efficient sampling. We introduce Accelerated Rolling Diffusion, a novel framework for streaming gesture generation that extends rolling diffusion models with structured progressive noise scheduling, enabling seamless long-sequence motion synthesis while preserving realism and diversity. We further propose Rolling Diffusion Ladder Acceleration (RDLA), a new approach that restructures the noise schedule into a stepwise ladder, allowing multiple frames to be denoised simultaneously. This significantly improves sampling efficiency while maintaining motion consistency, achieving up to a 2x speedup with high visual fidelity and temporal coherence. We evaluate our approach on ZEGGS and BEAT, strong benchmarks for real-world applicability. Our framework is universally applicable to any diffusion-based gesture generation model, transforming it into a streaming approach. Applied to three state-of-the-art methods, it consistently outperforms them, demonstrating its effectiveness as a generalizable and efficient solution for real-time, high-fidelity co-speech gesture synthesis.

arxiv情報

著者 Evgeniia Vu,Andrei Boiarov,Dmitry Vetrov
発行日 2025-03-13 15:54:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.HC, cs.LG パーマリンク