Motion and Context-Aware Audio-Visual Conditioned Video Prediction

要約

視聴覚条件付きビデオ予測の既存の最先端の方法では、マルチモーダル確率ネットワークとフレーム エンコーダーからの視聴覚フレームの潜在コードを使用して、次の視覚フレームを予測します。
ただし、高次元の画像空間があるため、次の視覚フレームのピクセルごとの強度を直接推論することは非常に困難です。
この目的を達成するために、視聴覚条件付きビデオ予測を動きと外観のモデリングに分離します。
マルチモーダル動き推定は、オーディオと動きの相関に基づいて将来のオプティカル フローを予測します。
視覚的なブランチは、オーディオ機能から構築されたモーション メモリから呼び出され、より適切な長期予測を可能にします。
さらに、長期にわたる継続的なワーピングにおける全体的な外観コンテキストの減少に対処するために、コンテキストを意識した改良を提案します。
グローバルな外観コンテキストは、コンテキスト エンコーダによって抽出され、ワー​​プ フレームの特徴と融合する前に、動き条件付きアフィン変換によって操作されます。
実験結果は、私たちの方法が既存のベンチマークと競合する結果を達成することを示しています。

要約(オリジナル)

The existing state-of-the-art method for audio-visual conditioned video prediction uses the latent codes of the audio-visual frames from a multimodal stochastic network and a frame encoder to predict the next visual frame. However, a direct inference of per-pixel intensity for the next visual frame is extremely challenging because of the high-dimensional image space. To this end, we decouple the audio-visual conditioned video prediction into motion and appearance modeling. The multimodal motion estimation predicts future optical flow based on the audio-motion correlation. The visual branch recalls from the motion memory built from the audio features to enable better long term prediction. We further propose context-aware refinement to address the diminishing of the global appearance context in the long-term continuous warping. The global appearance context is extracted by the context encoder and manipulated by motion-conditioned affine transformation before fusion with features of warped frames. Experimental results show that our method achieves competitive results on existing benchmarks.

arxiv情報

著者 Yating Xu,Conghui Hu,Gim Hee Lee
発行日 2023-09-20 11:58:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク