Laughing Matters: Introducing Laughing-Face Generation using Diffusion Models

要約

近年、音声駆動型アニメーションは大きな注目を集めており、現在の手法ではフォトリアリスティックに近い結果を得ることができます。しかし、非言語コミュニケーションは人間関係において重要であることが証明されているにもかかわらず、この分野ではまだ未解明な点があります。特に、笑いのシーケンスを生成することは、この行動の複雑さとニュアンスに起因するユニークな課題を提示します。本論文では、笑いを含む静止画と音声クリップがあれば、リアルな笑いシーケンスを生成できる新しいモデルを提案することで、このギャップを埋めることを目的としている。従来のフェイシャルアニメーション手法の失敗例を強調し、最近の拡散モデルの進歩を利用して、説得力のある笑い動画を生成する。本モデルを多様な笑いのデータセットで訓練し、笑いに特化した評価指標を導入する。従来の音声駆動型アプローチと比較した場合、本モデルは、笑いの生成のために再トレーニングを行った場合でも、すべての評価基準において最先端の性能を達成する。

要約(オリジナル)

Speech-driven animation has gained significant traction in recent years, with current methods achieving near-photorealistic results. However, the field remains underexplored regarding non-verbal communication despite evidence demonstrating its importance in human interaction. In particular, generating laughter sequences presents a unique challenge due to the intricacy and nuances of this behaviour. This paper aims to bridge this gap by proposing a novel model capable of generating realistic laughter sequences, given a still portrait and an audio clip containing laughter. We highlight the failure cases of traditional facial animation methods and leverage recent advances in diffusion models to produce convincing laughter videos. We train our model on a diverse set of laughter datasets and introduce an evaluation metric specifically designed for laughter. When compared with previous speech-driven approaches, our model achieves state-of-the-art performance across all metrics, even when these are re-trained for laughter generation.

arxiv情報

著者 Antoni Bigata Casademunt,Rodrigo Mira,Nikita Drobyshev,Konstantinos Vougioukas,Stavros Petridis,Maja Pantic
発行日 2023-05-15 17:59:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク