Multi-subject Open-set Personalization in Video Generation

要約

ビデオのパーソナライゼーション手法を使用すると、人物、ペット、場所などの特定のコンセプトを備えたビデオを合成できます。
ただし、既存の方法では、限られたドメインに焦点を当てたり、主題ごとに時間のかかる最適化を必要としたり、単一の主題のみをサポートしたりすることがよくあります。
Video Alchemist $-$ は、前景オブジェクトと背景の両方に対するマルチサブジェクト、オープンセットのパーソナライゼーション機能が組み込まれており、時間のかかるテスト時間の最適化の必要性を排除するビデオ モデルを提供します。
私たちのモデルは、各条件付き参照画像とそれに対応する主題レベルのテキスト プロンプトをクロス アテンション レイヤーと融合する新しい拡散トランスフォーマー モジュールに基づいて構築されています。
このような大規模なモデルを開発するには、データセットと評価という 2 つの主要な課題が生じます。
まず、参照画像とビデオのペアのデータセットを収集するのは非常に難しいため、選択したビデオ フレームを参照画像としてサンプリングし、ターゲットビデオのクリップを合成します。
ただし、モデルは参照フレームが与えられるとトレーニング ビデオのノイズを簡単に除去できますが、新しいコンテキストに一般化することはできません。
この問題を軽減するために、広範な画像拡張を備えた新しい自動データ構築パイプラインを設計します。
次に、オープンセットのビデオのパーソナライゼーションを評価すること自体が課題です。
これに対処するために、被写体の正確な忠実性に焦点を当て、多様なパーソナライゼーション シナリオをサポートするパーソナライゼーション ベンチマークを導入します。
最後に、私たちの広範な実験により、私たちの方法が定量的評価と定性的評価の両方で既存のパーソナライゼーション方法を大幅に上回ることが示されました。

要約(オリジナル)

Video personalization methods allow us to synthesize videos with specific concepts such as people, pets, and places. However, existing methods often focus on limited domains, require time-consuming optimization per subject, or support only a single subject. We present Video Alchemist $-$ a video model with built-in multi-subject, open-set personalization capabilities for both foreground objects and background, eliminating the need for time-consuming test-time optimization. Our model is built on a new Diffusion Transformer module that fuses each conditional reference image and its corresponding subject-level text prompt with cross-attention layers. Developing such a large model presents two main challenges: dataset and evaluation. First, as paired datasets of reference images and videos are extremely hard to collect, we sample selected video frames as reference images and synthesize a clip of the target video. However, while models can easily denoise training videos given reference frames, they fail to generalize to new contexts. To mitigate this issue, we design a new automatic data construction pipeline with extensive image augmentations. Second, evaluating open-set video personalization is a challenge in itself. To address this, we introduce a personalization benchmark that focuses on accurate subject fidelity and supports diverse personalization scenarios. Finally, our extensive experiments show that our method significantly outperforms existing personalization methods in both quantitative and qualitative evaluations.

arxiv情報

著者 Tsai-Shien Chen,Aliaksandr Siarohin,Willi Menapace,Yuwei Fang,Kwot Sin Lee,Ivan Skorokhodov,Kfir Aberman,Jun-Yan Zhu,Ming-Hsuan Yang,Sergey Tulyakov
発行日 2025-01-10 18:59:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク