Audio-Plane: Audio Factorization Plane Gaussian Splatting for Real-Time Talking Head Synthesis

要約

トーキングヘッド合成は、コンピューターグラフィックスとマルチメディアの重要な研究分野になりましたが、ほとんどの既存の方法は、生成の質と計算効率のバランスをとるのに苦労していることがよくあります。
このペーパーでは、高品質でリアルタイムのトーキングヘッド生成のために、オーディオ因数分解平面(オーディオプレーン)ベースのガウススプラットを活用する新しいアプローチを提示します。
動的なトーキングヘッドをモデル化するには、4Dボリューム表現が必要です。
ただし、密な4Dグリッドを直接保存することは、より長い期間のコストが高く、スケーラビリティの欠如のために非現実的です。
この課題は、4Dボリューム表現がオーディオに依存しないスペースプレーンとオーディオ依存面に分解される、提案されたオーディオプレーンで克服します。
これにより、トーキングヘッドのコンパクトで解釈可能な機能表現が提供され、より正確なオーディオ認識の空間エンコードと拡張オーディオ駆動のリップダイナミックモデリングを促進します。
音声のダイナミクスをさらに向上させるために、ネットワークが口の領域のダイナミクスのモデリングにより効果的に集中するのに役立つ動的スプラッティング方法を開発します。
広範な実験では、これらのイノベーションを強力なガウスのスプラッティングと統合することにより、私たちの方法は、正確なオーディオリップの同期を確保しながら、非常に現実的な話すビデオをリアルタイムで合成できることを示しています。
合成された結果は、https://sstzal.github.io/audio-plane/で入手できます。

要約(オリジナル)

Talking head synthesis has become a key research area in computer graphics and multimedia, yet most existing methods often struggle to balance generation quality with computational efficiency. In this paper, we present a novel approach that leverages an Audio Factorization Plane (Audio-Plane) based Gaussian Splatting for high-quality and real-time talking head generation. For modeling a dynamic talking head, 4D volume representation is needed. However, directly storing a dense 4D grid is impractical due to the high cost and lack of scalability for longer durations. We overcome this challenge with the proposed Audio-Plane, where the 4D volume representation is decomposed into audio-independent space planes and audio-dependent planes. This provides a compact and interpretable feature representation for talking head, facilitating more precise audio-aware spatial encoding and enhanced audio-driven lip dynamic modeling. To further improve speech dynamics, we develop a dynamic splatting method that helps the network more effectively focus on modeling the dynamics of the mouth region. Extensive experiments demonstrate that by integrating these innovations with the powerful Gaussian Splatting, our method is capable of synthesizing highly realistic talking videos in real time while ensuring precise audio-lip synchronization. Synthesized results are available in https://sstzal.github.io/Audio-Plane/.

arxiv情報

著者 Shuai Shen,Wanhua Li,Yunpeng Zhang,Weipeng Hu,Yap-Peng Tan
発行日 2025-03-28 16:50:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.GR, cs.SD, eess.AS パーマリンク