MDT-A2G: Exploring Masked Diffusion Transformers for Co-Speech Gesture Generation

要約

拡散トランスの分野における最近の進歩により、高品質の 2D 画像、3D ビデオ、および 3D 形状の生成が大幅に改善されました。
ただし、従来の方法論では主に畳み込みニューラル ネットワーク (CNN) または単純ないくつかのトランスフォーマー層が使用されていたため、共同音声ジェスチャ生成の領域におけるトランスフォーマー アーキテクチャの有効性は比較的未調査のままです。
この研究ギャップを埋める試みとして、ジェスチャ シーケンスのノイズ除去プロセスを直接実装する、MDT-A2G と呼ばれる同時音声ジェスチャ生成用の新しいマスク拡散トランスを導入します。
時間的に調整された音声駆動ジェスチャの文脈推論能力を強化するために、新しいマスク拡散トランスフォーマーが組み込まれています。
このモデルは、シーケンス ジェスチャ間の時間的関係の学習を強化するために特別に設計されたマスク モデリング スキームを採用しており、それによって学習プロセスが促進され、一貫性のある現実的なモーションが実現されます。
オーディオとは別に、当社の MDT-A2G モデルは、テキスト、感情、アイデンティティを含むマルチモーダル情報も統合します。
さらに、以前に計算された結果を活用することでノイズ除去計算を削減し、それによって無視できるパフォーマンス低下で高速化を達成する効率的な推論戦略を提案します。
実験結果は、MDT-A2G がジェスチャ生成に優れ、従来の拡散変換器より 6$\times$ 以上速い学習速度と、標準拡散モデルより 5.7$\times$ 高い推論速度を誇ることを示しています。

要約(オリジナル)

Recent advancements in the field of Diffusion Transformers have substantially improved the generation of high-quality 2D images, 3D videos, and 3D shapes. However, the effectiveness of the Transformer architecture in the domain of co-speech gesture generation remains relatively unexplored, as prior methodologies have predominantly employed the Convolutional Neural Network (CNNs) or simple a few transformer layers. In an attempt to bridge this research gap, we introduce a novel Masked Diffusion Transformer for co-speech gesture generation, referred to as MDT-A2G, which directly implements the denoising process on gesture sequences. To enhance the contextual reasoning capability of temporally aligned speech-driven gestures, we incorporate a novel Masked Diffusion Transformer. This model employs a mask modeling scheme specifically designed to strengthen temporal relation learning among sequence gestures, thereby expediting the learning process and leading to coherent and realistic motions. Apart from audio, Our MDT-A2G model also integrates multi-modal information, encompassing text, emotion, and identity. Furthermore, we propose an efficient inference strategy that diminishes the denoising computation by leveraging previously calculated results, thereby achieving a speedup with negligible performance degradation. Experimental results demonstrate that MDT-A2G excels in gesture generation, boasting a learning speed that is over 6$\times$ faster than traditional diffusion transformers and an inference speed that is 5.7$\times$ than the standard diffusion model.

arxiv情報

著者 Xiaofeng Mao,Zhengkai Jiang,Qilin Wang,Chencan Fu,Jiangning Zhang,Jiafu Wu,Yabiao Wang,Chengjie Wang,Wei Li,Mingmin Chi
発行日 2024-08-06 17:29:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク