要約
対面での会話では、個人はスピーキングとリスニングの役割を切り替える必要があります。
既存の3Dトーキングヘッドジェネレーションモデルは、話すかリスニングに焦点を当て、インタラクティブな会話の自然なダイナミクスを無視し、不自然な相互作用と厄介な移行につながります。
この問題に対処するために、3Dトーキングヘッド生成のためのマルチラウンドのデュアルスピーカーインタラクション – 継続的な会話でスピーキングとリスニングの両方の行動を処理および生成する必要がある新しいタスクを提案します。
このタスクを解決するために、スピーカーとリスナーの動的な動作を統合して現実的で首尾一貫した対話の相互作用をシミュレートする新しい統一されたフレームワークであるDualtalkを紹介します。
このフレームワークは、話すときにリアルなトーキングヘッドを統合するだけでなく、聞くときに連続的で鮮明な非言語的フィードバックを生成し、役割間の相互作用を効果的にキャプチャします。
また、1,000文字以上の50時間のマルチラウンド会話を特徴とする新しいデータセットを作成します。参加者は、スピーキングとリスニングの役割を継続的に切り替えます。
広範な実験は、私たちの方法がデュアルスピーカーの会話における3Dトーキングヘッドの自然性と表現力を大幅に向上させることを示しています。
補足ビデオを見ることをお勧めします:https://ziqiaopeng.github.io/dualtalk。
要約(オリジナル)
In face-to-face conversations, individuals need to switch between speaking and listening roles seamlessly. Existing 3D talking head generation models focus solely on speaking or listening, neglecting the natural dynamics of interactive conversation, which leads to unnatural interactions and awkward transitions. To address this issue, we propose a new task — multi-round dual-speaker interaction for 3D talking head generation — which requires models to handle and generate both speaking and listening behaviors in continuous conversation. To solve this task, we introduce DualTalk, a novel unified framework that integrates the dynamic behaviors of speakers and listeners to simulate realistic and coherent dialogue interactions. This framework not only synthesizes lifelike talking heads when speaking but also generates continuous and vivid non-verbal feedback when listening, effectively capturing the interplay between the roles. We also create a new dataset featuring 50 hours of multi-round conversations with over 1,000 characters, where participants continuously switch between speaking and listening roles. Extensive experiments demonstrate that our method significantly enhances the naturalness and expressiveness of 3D talking heads in dual-speaker conversations. We recommend watching the supplementary video: https://ziqiaopeng.github.io/dualtalk.
arxiv情報
著者 | Ziqiao Peng,Yanbo Fan,Haoyu Wu,Xuan Wang,Hongyan Liu,Jun He,Zhaoxin Fan |
発行日 | 2025-05-26 15:59:22+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google