Streaming Generation of Co-Speech Gestures via Accelerated Rolling Diffusion

要約

音声合成ジェスチャーをリアルタイムで生成するには、時間的コヒーレンスと効率的なサンプリングの両方が必要である。我々は、ローリング拡散モデルを構造化されたプログレッシブノイズスケジューリングで拡張し、リアリズムと多様性を保持しながらシームレスなロングシーケンスモーション合成を可能にする、ストリーミングジェスチャー生成のための新しいフレームワークであるアクセラレーテッドローリング拡散を紹介する。さらに、ノイズスケジュールを段階的なラダーに再構築し、複数のフレームを同時にノイズ除去できるようにする新しいアプローチであるローリング拡散ラダーアクセラレーション(RDLA)を提案する。これにより、動きの一貫性を保ちながらサンプリング効率を大幅に改善し、高い視覚的忠実性と時間的一貫性を保ちながら最大2倍のスピードアップを達成する。我々はZEGGSとBEATで我々のアプローチを評価した。我々のフレームワークは、拡散ベースのジェスチャー生成モデルに普遍的に適用可能であり、ストリーミングアプローチに変換する。3つの最先端手法に適用したところ、一貫してそれらの手法を上回り、リアルタイムで高忠実度の共同音声ジェスチャー合成のための一般化可能で効率的なソリューションとしての有効性を実証した。

要約(オリジナル)

Generating co-speech gestures in real time requires both temporal coherence and efficient sampling. We introduce Accelerated Rolling Diffusion, a novel framework for streaming gesture generation that extends rolling diffusion models with structured progressive noise scheduling, enabling seamless long-sequence motion synthesis while preserving realism and diversity. We further propose Rolling Diffusion Ladder Acceleration (RDLA), a new approach that restructures the noise schedule into a stepwise ladder, allowing multiple frames to be denoised simultaneously. This significantly improves sampling efficiency while maintaining motion consistency, achieving up to a 2x speedup with high visual fidelity and temporal coherence. We evaluate our approach on ZEGGS and BEAT, strong benchmarks for real-world applicability. Our framework is universally applicable to any diffusion-based gesture generation model, transforming it into a streaming approach. Applied to three state-of-the-art methods, it consistently outperforms them, demonstrating its effectiveness as a generalizable and efficient solution for real-time, high-fidelity co-speech gesture synthesis.

arxiv情報

著者 Evgeniia Vu,Andrei Boiarov,Dmitry Vetrov
発行日 2025-04-04 16:12:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV, cs.HC, cs.LG パーマリンク