Conditional GAN for Enhancing Diffusion Models in Efficient and Authentic Global Gesture Generation from Audios

要約

音声による同時ジェスチャー生成は、人間とコンピュータのコミュニケーション、AIゲーム、映画制作に不可欠である。これまでの研究が有望であることを示してきたとはいえ、まだ限界がある。VAEに基づく方法は局所的なジッターと大域的な不安定性の問題を伴い、拡散モデルに基づく方法は低い生成効率に阻まれている。これは、後者のDDPMのノイズ除去処理が、各ステップで付加されるノイズが単峰分布からサンプリングされ、ノイズ値が小さいという仮定に依存しているためである。DDIMは、微分方程式を解くオイラー法のアイデアを借り、マルコフ連鎖過程を破壊し、ノイズのステップサイズを大きくしてノイズ除去のステップ数を減らし、生成を高速化する。しかし、段階的なノイズ除去処理中にステップサイズを単純に大きくすると、結果が元のデータ分布から徐々に逸脱し、生成されるアクションの品質が著しく低下し、不自然なアーチファクトが出現する。本論文では、DDPMの前提を破り、ノイズ除去の速度と忠実度において画期的な進歩を達成する。具体的には、音声制御信号を取り込む条件付きGANを導入し、同じサンプリングステップ内で拡散ステップとノイズ除去ステップ間のマルチモーダルなノイズ除去分布を暗黙的に一致させることで、より大きなノイズ値をサンプリングし、より少ないノイズ除去ステップを適用して高速生成を目指す。

要約(オリジナル)

Audio-driven simultaneous gesture generation is vital for human-computer communication, AI games, and film production. While previous research has shown promise, there are still limitations. Methods based on VAEs are accompanied by issues of local jitter and global instability, whereas methods based on diffusion models are hampered by low generation efficiency. This is because the denoising process of DDPM in the latter relies on the assumption that the noise added at each step is sampled from a unimodal distribution, and the noise values are small. DDIM borrows the idea from the Euler method for solving differential equations, disrupts the Markov chain process, and increases the noise step size to reduce the number of denoising steps, thereby accelerating generation. However, simply increasing the step size during the step-by-step denoising process causes the results to gradually deviate from the original data distribution, leading to a significant drop in the quality of the generated actions and the emergence of unnatural artifacts. In this paper, we break the assumptions of DDPM and achieves breakthrough progress in denoising speed and fidelity. Specifically, we introduce a conditional GAN to capture audio control signals and implicitly match the multimodal denoising distribution between the diffusion and denoising steps within the same sampling step, aiming to sample larger noise values and apply fewer denoising steps for high-speed generation.

arxiv情報

著者 Yongkang Cheng,Mingjiang Liang,Shaoli Huang,Gaoge Han,Jifeng Ning,Wei Liu
発行日 2024-11-01 09:33:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CV, cs.GR, cs.SD, eess.AS パーマリンク