Jump Cut Smoothing for Talking Heads

要約

ジャンプ カットは、視聴エクスペリエンスに突然、場合によっては望ましくない変化をもたらします。
私たちは、トーキング ヘッド ビデオのコンテキストで、これらのジャンプ カットをスムーズにするための新しいフレームワークを紹介します。
ビデオ内の他のソース フレームからの被写体の外観を活用し、DensePose のキーポイントと顔のランドマークによって駆動される中間レベルの表現と融合させます。
モーションを実現するために、カットの周囲の終了フレーム間にキーポイントとランドマークを補間します。
次に、キーポイントとソース フレームから画像変換ネットワークを使用して、ピクセルを合成します。
キーポイントにはエラーが含まれる可能性があるため、キーポイントごとに複数のオプションの中から最も適切なソースを選択するクロスモーダル アテンション スキームを提案します。
この中間レベルの表現を活用することで、私たちの方法は強力なビデオ補間ベースラインよりも強力な結果を達成できます。
トーキング ヘッド ビデオでは、つなぎ言葉、一時停止、さらにはランダム カットのカットなど、さまざまなジャンプ カットに関する方法を示しています。
私たちの実験では、ジャンプ カットでトーキング ヘッドが回転したり大幅に移動したりする難しいケースでも、シームレスなトランジションを実現できることがわかりました。

要約(オリジナル)

A jump cut offers an abrupt, sometimes unwanted change in the viewing experience. We present a novel framework for smoothing these jump cuts, in the context of talking head videos. We leverage the appearance of the subject from the other source frames in the video, fusing it with a mid-level representation driven by DensePose keypoints and face landmarks. To achieve motion, we interpolate the keypoints and landmarks between the end frames around the cut. We then use an image translation network from the keypoints and source frames, to synthesize pixels. Because keypoints can contain errors, we propose a cross-modal attention scheme to select and pick the most appropriate source amongst multiple options for each key point. By leveraging this mid-level representation, our method can achieve stronger results than a strong video interpolation baseline. We demonstrate our method on various jump cuts in the talking head videos, such as cutting filler words, pauses, and even random cuts. Our experiments show that we can achieve seamless transitions, even in the challenging cases where the talking head rotates or moves drastically in the jump cut.

arxiv情報

著者 Xiaojuan Wang,Taesung Park,Yang Zhou,Eli Shechtman,Richard Zhang
発行日 2024-01-09 18:44:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク