要約
音声駆動アニメーションは近年大きな注目を集めており、現在の手法ではほぼフォトリアリスティックな結果が得られます。
しかし、人間の相互作用における非言語コミュニケーションの重要性を示す証拠があるにもかかわらず、この分野は依然として研究が進んでいません。
特に、笑いのシーケンスを生成することは、この動作の複雑さと微妙な違いにより、独特の課題を伴います。
この論文は、静止画と笑いを含むオーディオ クリップを与えられた場合に、リアルな笑いのシーケンスを生成できる新しいモデルを提案することで、このギャップを埋めることを目的としています。
従来の顔アニメーション手法の失敗例に焦点を当て、最近の普及モデルの進歩を活用して説得力のある笑いビデオを制作します。
さまざまな笑いデータセットでモデルをトレーニングし、笑いのために特別に設計された評価指標を導入します。
以前の音声主導のアプローチと比較すると、私たちのモデルは、笑いを生み出すために再トレーニングされた場合でも、すべての指標にわたって最先端のパフォーマンスを達成します。
私たちのコードとプロジェクトは公開されています
要約(オリジナル)
Speech-driven animation has gained significant traction in recent years, with current methods achieving near-photorealistic results. However, the field remains underexplored regarding non-verbal communication despite evidence demonstrating its importance in human interaction. In particular, generating laughter sequences presents a unique challenge due to the intricacy and nuances of this behaviour. This paper aims to bridge this gap by proposing a novel model capable of generating realistic laughter sequences, given a still portrait and an audio clip containing laughter. We highlight the failure cases of traditional facial animation methods and leverage recent advances in diffusion models to produce convincing laughter videos. We train our model on a diverse set of laughter datasets and introduce an evaluation metric specifically designed for laughter. When compared with previous speech-driven approaches, our model achieves state-of-the-art performance across all metrics, even when these are re-trained for laughter generation. Our code and project are publicly available
arxiv情報
著者 | Antoni Bigata Casademunt,Rodrigo Mira,Nikita Drobyshev,Konstantinos Vougioukas,Stavros Petridis,Maja Pantic |
発行日 | 2023-08-30 14:01:36+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google