TalkingMachines: Real-Time Audio-Driven FaceTime-Style Video via Autoregressive Diffusion Models

要約

本論文では、TalkingMachinesを紹介する。TalkingMachinesは、事前に学習されたビデオ生成モデルを、リアルタイムで音声駆動のキャラクターアニメーターに変換する効率的なフレームワークである。TalkingMachinesは、音声ラージ・ランゲージ・モデル(LLM)をビデオ生成基礎モデルと統合することで、自然な会話体験を可能にする。我々の主な貢献は以下の通り:(2)双方向教師モデルからスパース因果自己回帰生徒モデルへの非対称知識蒸留により、エラーの蓄積なしに無限のビデオストリーミングを可能にする:(c)フレーム生成スループットを最大化するための冗長な再計算の排除。デモビデオはこちら – https://aaxwaz.github.io/TalkingMachines/

要約(オリジナル)

In this paper, we present TalkingMachines — an efficient framework that transforms pretrained video generation models into real-time, audio-driven character animators. TalkingMachines enables natural conversational experiences by integrating an audio large language model (LLM) with our video generation foundation model. Our primary contributions include: (1) We adapt a pretrained SOTA image-to-video DiT into an audio-driven avatar generation model of 18 billion parameters; (2) We enable infinite video streaming without error accumulation through asymmetric knowledge distillation from a bidirectional teacher model into a sparse causal, autoregressive student model; (3) We design a high-throughput, low-latency inference pipeline incorporating several key engineering optimizations such as: (a) disaggregation of the DiT and VAE decoder across separate devices, (b) efficient overlap of inter-device communication and computation using CUDA streams, (c) elimination of redundant recomputations to maximize frame-generation throughput. Please see demo videos here – https://aaxwaz.github.io/TalkingMachines/

arxiv情報

著者 Chetwin Low,Weimin Wang
発行日 2025-06-03 17:29:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.GR, cs.SD パーマリンク