AV-Flow: Transforming Text to Audio-Visual Human-like Interactions

要約

テキスト入力のみが与えられた写真と現実的な4Dトーキングアバターをアニメーション化するオーディオビジュアル生成モデルであるAV-Flowを紹介します。
既存の音声信号を想定している以前の作業とは対照的に、音声とビジョンを共同で合成します。
人間のような音声統合、同期された唇の動き、活気のある表情、ヘッドポーズを示します。
すべてテキスト文字から生成されます。
私たちのアプローチの核となる前提は、2つの並列拡散変圧器のアーキテクチャにあります。
中間高速道路接続により、オーディオと視覚のモダリティとの間の通信が保証され、したがって、同期した音声イントネーションと顔のダイナミクス(眉の動きなど)が同期されます。
私たちのモデルは、フローマッチングでトレーニングされており、表現結果と迅速な推論につながります。
ダイアディックな会話の場合、AV-Flowは、ユーザーの視聴覚入力を積極的に聴き、反応する常にオンになっているアバターを生成します。
広範な実験を通じて、私たちの方法は、自然に見える4D話のアバターを統合して、以前の作業よりも優れていることを示しています。
プロジェクトページ:https://aggelinacha.github.io/av-flow/

要約(オリジナル)

We introduce AV-Flow, an audio-visual generative model that animates photo-realistic 4D talking avatars given only text input. In contrast to prior work that assumes an existing speech signal, we synthesize speech and vision jointly. We demonstrate human-like speech synthesis, synchronized lip motion, lively facial expressions and head pose; all generated from just text characters. The core premise of our approach lies in the architecture of our two parallel diffusion transformers. Intermediate highway connections ensure communication between the audio and visual modalities, and thus, synchronized speech intonation and facial dynamics (e.g., eyebrow motion). Our model is trained with flow matching, leading to expressive results and fast inference. In case of dyadic conversations, AV-Flow produces an always-on avatar, that actively listens and reacts to the audio-visual input of a user. Through extensive experiments, we show that our method outperforms prior work, synthesizing natural-looking 4D talking avatars. Project page: https://aggelinacha.github.io/AV-Flow/

arxiv情報

著者 Aggelina Chatziagapi,Louis-Philippe Morency,Hongyu Gong,Michael Zollhoefer,Dimitris Samaras,Alexander Richard
発行日 2025-02-18 18:56:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク