APLA: Additional Perturbation for Latent Noise with Adversarial Training Enables Consistency


根本的な原因の 1 つは、従来の拡散モデルが、入力自体に固有の情報の影響を完全に考慮せずに、予測ノイズを利用してガウス ノイズ分布を近似していることです。
この制限に対処するために、セルフ アテンション メカニズムにヒントを得て、我々は、敵対的トレーニングによる潜在ノイズの追加摂動 (APLA) と呼ばれる、拡散モデルに基づく新しいテキストからビデオへの (T2V) 生成ネットワーク構造を提案します。
私たちのアプローチは入力として 1 つのビデオのみを必要とし、事前にトレーニングされた安定した拡散ネットワークに基づいて構築されます。
特に、Video Generation Transformer (VGT) として知られる追加のコンパクト ネットワークを導入しました。
トランスフォーマーとコンボリューションのハイブリッド アーキテクチャを活用して時間的な複雑さを補正し、ビデオ内の異なるフレーム間の一貫性を高めます。


Diffusion models have exhibited promising progress in video generation. However, they often struggle to retain consistent details within local regions across frames. One underlying cause is that traditional diffusion models approximate Gaussian noise distribution by utilizing predictive noise, without fully accounting for the impact of inherent information within the input itself. Additionally, these models emphasize the distinction between predictions and references, neglecting information intrinsic to the videos. To address this limitation, inspired by the self-attention mechanism, we propose a novel text-to-video (T2V) generation network structure based on diffusion models, dubbed Additional Perturbation for Latent noise with Adversarial training (APLA). Our approach only necessitates a single video as input and builds upon pre-trained stable diffusion networks. Notably, we introduce an additional compact network, known as the Video Generation Transformer (VGT). This auxiliary component is designed to extract perturbations from the inherent information contained within the input, thereby refining inconsistent pixels during temporal predictions. We leverage a hybrid architecture of transformers and convolutions to compensate for temporal intricacies, enhancing consistency between different frames within the video. Experiments demonstrate a noticeable improvement in the consistency of the generated videos both qualitatively and quantitatively.


著者 Yupu Yao,Shangqi Deng,Zihan Cao,Harry Zhang,Liang-Jian Deng
発行日 2023-08-24 07:11:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク