要約
ビデオパーソナライズ方法により、人、ペット、場所などの特定の概念を持つビデオを統合することができます。
ただし、既存の方法は、限られたドメインに焦点を合わせたり、被験者ごとに時間のかかる最適化を必要としたり、単一の被験者のみをサポートする必要があります。
ビデオ錬金術師$を提示します – $は、前景オブジェクトと背景の両方に組み込まれたマルチサブジェクトのオープンセットパーソナライズ機能を備えたビデオモデルを紹介し、時間のかかるテスト時間最適化の必要性を排除します。
私たちのモデルは、各条件付き参照画像と、対応するサブジェクトレベルのテキストプロンプトと交差アテンションレイヤーを融合する新しい拡散トランスモジュールの上に構築されています。
このような大きなモデルを開発するには、データセットと評価という2つの主な課題があります。
まず、参照画像とビデオのペア付きデータセットを収集するのは非常に困難であるため、選択したビデオフレームを参照画像としてサンプリングし、ターゲットビデオのクリップを合成します。
ただし、モデルは参照フレームを与えられたビデオを簡単に非表示にすることができますが、新しいコンテキストに一般化することはできません。
この問題を軽減するために、広範な画像の増強を備えた新しい自動データ構築パイプラインを設計します。
第二に、オープンセットのビデオパーソナライズを評価すること自体が課題です。
これに対処するために、正確な主題の忠実度に焦点を当て、多様なパーソナライズシナリオをサポートするパーソナライズベンチマークを紹介します。
最後に、私たちの広範な実験は、私たちの方法が定量的評価と定性的評価の両方で既存のパーソナライズ方法を大幅に上回ることを示しています。
要約(オリジナル)
Video personalization methods allow us to synthesize videos with specific concepts such as people, pets, and places. However, existing methods often focus on limited domains, require time-consuming optimization per subject, or support only a single subject. We present Video Alchemist $-$ a video model with built-in multi-subject, open-set personalization capabilities for both foreground objects and background, eliminating the need for time-consuming test-time optimization. Our model is built on a new Diffusion Transformer module that fuses each conditional reference image and its corresponding subject-level text prompt with cross-attention layers. Developing such a large model presents two main challenges: dataset and evaluation. First, as paired datasets of reference images and videos are extremely hard to collect, we sample selected video frames as reference images and synthesize a clip of the target video. However, while models can easily denoise training videos given reference frames, they fail to generalize to new contexts. To mitigate this issue, we design a new automatic data construction pipeline with extensive image augmentations. Second, evaluating open-set video personalization is a challenge in itself. To address this, we introduce a personalization benchmark that focuses on accurate subject fidelity and supports diverse personalization scenarios. Finally, our extensive experiments show that our method significantly outperforms existing personalization methods in both quantitative and qualitative evaluations.
arxiv情報
著者 | Tsai-Shien Chen,Aliaksandr Siarohin,Willi Menapace,Yuwei Fang,Kwot Sin Lee,Ivan Skorokhodov,Kfir Aberman,Jun-Yan Zhu,Ming-Hsuan Yang,Sergey Tulyakov |
発行日 | 2025-03-20 17:59:56+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google