MFR-Net: Multi-faceted Responsive Listening Head Generation via Denoising Diffusion Model

要約

対面でのコミュニケーションは、話し手と聞き手の役割を含む一般的なシナリオです。
既存の研究方法のほとんどは、講演者のビデオの作成に焦点を当てていますが、聞き手の頭部の生成は依然としてほとんど見落とされています。
応答型リスニング ヘッドの生成は、話者のビデオとリスナーの頭の画像からリスナーの頭のビデオを生成することで、対面コミュニケーション シナリオをモデル化することを目的とした重要なタスクです。
理想的に生成される応答性の高いリスニング ビデオは、インタラクション パターンの多様性とリスナー ID 情報の正確さを維持しながら、態度や視点を表現して話者に応答する必要があります。
この目標を達成するために、\textbf{M}ulti-\textbf{F}aceted \textbf{R}esponsive Listening Head Generation Network (MFR-Net) を提案します。
具体的には、MFR-Net は確率論的ノイズ除去拡散モデルを採用して、さまざまな頭の姿勢や表情の特徴を予測します。
正確なリスナー ID の保存を維持しながら、スピーカーのビデオに対して多面的な応答を実行するために、リスナー ID の機能を強化し、それらを他のスピーカー関連の機能と融合する機能集約モジュールを設計します。
最後に、アイデンティティ一貫性の損失を考慮して微調整されたレンダラーが、最終的なリスニング ヘッド ビデオを生成します。
私たちの広範な実験により、MFR-Net は多様性や話者のアイデンティティ情報だけでなく、態度や視点の表現においても多面的な応答を達成できることが実証されました。

要約(オリジナル)

Face-to-face communication is a common scenario including roles of speakers and listeners. Most existing research methods focus on producing speaker videos, while the generation of listener heads remains largely overlooked. Responsive listening head generation is an important task that aims to model face-to-face communication scenarios by generating a listener head video given a speaker video and a listener head image. An ideal generated responsive listening video should respond to the speaker with attitude or viewpoint expressing while maintaining diversity in interaction patterns and accuracy in listener identity information. To achieve this goal, we propose the \textbf{M}ulti-\textbf{F}aceted \textbf{R}esponsive Listening Head Generation Network (MFR-Net). Specifically, MFR-Net employs the probabilistic denoising diffusion model to predict diverse head pose and expression features. In order to perform multi-faceted response to the speaker video, while maintaining accurate listener identity preservation, we design the Feature Aggregation Module to boost listener identity features and fuse them with other speaker-related features. Finally, a renderer finetuned with identity consistency loss produces the final listening head videos. Our extensive experiments demonstrate that MFR-Net not only achieves multi-faceted responses in diversity and speaker identity information but also in attitude and viewpoint expression.

arxiv情報

著者 Jin Liu,Xi Wang,Xiaomeng Fu,Yesheng Chai,Cai Yu,Jiao Dai,Jizhong Han
発行日 2023-08-31 11:10:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク