Talking Head from Speech Audio using a Pre-trained Image Generator

要約

音声音声と単一の「アイデンティティ」画像から話し手の高解像度ビデオを生成するための新しい方法を提案します。
私たちの方法は、事前トレーニング済みの StyleGAN ジェネレーターを組み込んだ畳み込みニューラル ネットワーク モデルに基づいています。
ビデオが潜在空間を通る軌跡に対応するように、各フレームをStyleGANの潜在空間内のポイントとしてモデル化します。
ネットワークのトレーニングは 2 段階で行われます。
第 1 段階は、発話に条件付けられた潜在空間で軌跡をモデル化することです。
これを行うには、既存のエンコーダーを使用してジェネレーターを反転し、各ビデオ フレームから潜在空間にマッピングします。
再帰型ニューラル ネットワークをトレーニングして、音声発話からイメージ ジェネレーターの潜在空間の変位にマッピングします。
これらの変位は、トレーニング データセットに示されている個人から選択されたアイデンティティ イメージの潜在空間への逆投影に関連しています。
第 2 段階では、選択したアイデンティティの単一の画像または短いビデオで画像ジェネレーターを調整することにより、生成されたビデオの視覚的品質を向上させます。
標準的な尺度 (PSNR、SSIM、FID、LMD) でモデルを評価し、2 つの一般的に使用されるデータセットの 1 つで最近の最先端の方法を大幅に上回り、もう 1 つのデータセットで同等のパフォーマンスを提供することを示します。
最後に、モデルのコンポーネントを検証するアブレーション実験について報告します。
実験のコードとビデオは、https://mohammedalghamdi.github.io/talking-heads-acm-mm にあります。

要約(オリジナル)

We propose a novel method for generating high-resolution videos of talking-heads from speech audio and a single ‘identity’ image. Our method is based on a convolutional neural network model that incorporates a pre-trained StyleGAN generator. We model each frame as a point in the latent space of StyleGAN so that a video corresponds to a trajectory through the latent space. Training the network is in two stages. The first stage is to model trajectories in the latent space conditioned on speech utterances. To do this, we use an existing encoder to invert the generator, mapping from each video frame into the latent space. We train a recurrent neural network to map from speech utterances to displacements in the latent space of the image generator. These displacements are relative to the back-projection into the latent space of an identity image chosen from the individuals depicted in the training dataset. In the second stage, we improve the visual quality of the generated videos by tuning the image generator on a single image or a short video of any chosen identity. We evaluate our model on standard measures (PSNR, SSIM, FID and LMD) and show that it significantly outperforms recent state-of-the-art methods on one of two commonly used datasets and gives comparable performance on the other. Finally, we report on ablation experiments that validate the components of the model. The code and videos from experiments can be found at https://mohammedalghamdi.github.io/talking-heads-acm-mm

arxiv情報

著者 Mohammed M. Alghamdi,He Wang,Andrew J. Bulpitt,David C. Hogg
発行日 2022-09-09 11:20:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク