Human Video Translation via Query Warping

要約

この論文では、時間的に一貫した人間の動きのビデオ翻訳のための新しいフレームワークである QueryWarp を紹介します。
既存の拡散ベースのビデオ編集アプローチは、時間的一貫性を確保するためにキー トークンと値トークンのみに依存するため、ローカル領域と構造領域の保存が困難になります。
対照的に、異なるフレームからのクエリ トークン間の時間的相関を構築することにより、相補的なクエリ事前分布を考慮することを目的としています。
最初に、ソースポーズから外観フローを抽出して、人間の前景の連続的な動きをキャプチャします。
その後、拡散モデルのノイズ除去プロセス中に、アピアランス フローを使用して前のフレームのクエリ トークンをワープし、現在のフレームのクエリと位置合わせします。
このクエリ ワーピングは、セルフ アテンション レイヤーの出力に明示的な制約を課し、時間的に一貫した変換を効果的に保証します。
私たちはさまざまなヒューマン モーション ビデオ翻訳タスクの実験を行っており、その結果、QueryWarp フレームワークが質的にも量的にも最先端の手法を上回っていることが実証されました。

要約(オリジナル)

In this paper, we present QueryWarp, a novel framework for temporally coherent human motion video translation. Existing diffusion-based video editing approaches that rely solely on key and value tokens to ensure temporal consistency, which scarifies the preservation of local and structural regions. In contrast, we aim to consider complementary query priors by constructing the temporal correlations among query tokens from different frames. Initially, we extract appearance flows from source poses to capture continuous human foreground motion. Subsequently, during the denoising process of the diffusion model, we employ appearance flows to warp the previous frame’s query token, aligning it with the current frame’s query. This query warping imposes explicit constraints on the outputs of self-attention layers, effectively guaranteeing temporally coherent translation. We perform experiments on various human motion video translation tasks, and the results demonstrate that our QueryWarp framework surpasses state-of-the-art methods both qualitatively and quantitatively.

arxiv情報

著者 Haiming Zhu,Yangyang Xu,Shengfeng He
発行日 2024-02-19 12:28:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク