要約
ダイアディックな会話における現実的なリスナーの顔の動きを生成することは、高次元のアクション空間と時間的依存要件のために依然として困難です。
既存のアプローチでは、通常、3D Morphableモデル(3DMM)係数と3DMM空間でのモデリングを抽出することを検討します。
ただし、これにより3DMMの計算速度がボトルネックになり、リアルタイムのインタラクティブな応答を実現することが困難になります。
この問題に取り組むために、顔のアクション拡散(FAD)を提案します。これは、効率的な顔のアクション生成を達成するために、画像生成の分野から拡散方法を導入します。
さらに、スピーカーの視覚情報とオーディオ情報の両方に入力として対応するように特別に設計された効率的なリスナーネットワーク(ELNET)を構築します。
FADとELNETを考慮して、提案された方法は、効果的なリスナーの顔の動きの表現を学習し、99%の計算時間を短縮しながら、最先端の方法でパフォーマンスの改善につながります。
要約(オリジナル)
Generating realistic listener facial motions in dyadic conversations remains challenging due to the high-dimensional action space and temporal dependency requirements. Existing approaches usually consider extracting 3D Morphable Model (3DMM) coefficients and modeling in the 3DMM space. However, this makes the computational speed of the 3DMM a bottleneck, making it difficult to achieve real-time interactive responses. To tackle this problem, we propose Facial Action Diffusion (FAD), which introduces the diffusion methods from the field of image generation to achieve efficient facial action generation. We further build the Efficient Listener Network (ELNet) specially designed to accommodate both the visual and audio information of the speaker as input. Considering of FAD and ELNet, the proposed method learns effective listener facial motion representations and leads to improvements of performance over the state-of-the-art methods while reducing 99% computational time.
arxiv情報
著者 | Zesheng Wang,Alexandre Bruckert,Patrick Le Callet,Guangtao Zhai |
発行日 | 2025-04-29 12:08:02+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google