要約
パーソナライズされたテキストから画像への (T2I) モデルの最近の進歩により、コンテンツ作成に革命が起こり、専門家でなくても独自のスタイルで素晴らしい画像を生成できるようになりました。
これらのパーソナライズされた画像にテキストによってリアルなモーションを追加することは有望ですが、独特のスタイル、高忠実度の詳細を保持し、テキストによるモーション制御性を達成する際に大きな課題が生じます。
本稿では、状況画像との整合性、テキストによるモーション制御性、および特別なチューニングなしでさまざまなパーソナライズされたT2Iモデルとの互換性を実現するパーソナライズド・イメージ・アニメーター「PIA」を紹介します。
これらの目標を達成するために、PIA は、適切にトレーニングされた時間的アライメント レイヤーを備えたベース T2I モデルを構築し、パーソナライズされた T2I モデルを画像アニメーション モデルにシームレスに変換できるようにします。
PIA の重要なコンポーネントは、条件モジュールの導入です。このモジュールは、条件フレームとフレーム間親和性を入力として利用し、潜在空間での個々のフレーム合成のための親和性ヒントによって導かれる外観情報を転送します。
この設計により、内部の外観関連の画像位置合わせの課題が軽減され、動き関連のガイダンスとの位置合わせに重点を置くことができます。
要約(オリジナル)
Recent advancements in personalized text-to-image (T2I) models have revolutionized content creation, empowering non-experts to generate stunning images with unique styles. While promising, adding realistic motions into these personalized images by text poses significant challenges in preserving distinct styles, high-fidelity details, and achieving motion controllability by text. In this paper, we present PIA, a Personalized Image Animator that excels in aligning with condition images, achieving motion controllability by text, and the compatibility with various personalized T2I models without specific tuning. To achieve these goals, PIA builds upon a base T2I model with well-trained temporal alignment layers, allowing for the seamless transformation of any personalized T2I model into an image animation model. A key component of PIA is the introduction of the condition module, which utilizes the condition frame and inter-frame affinity as input to transfer appearance information guided by the affinity hint for individual frame synthesis in the latent space. This design mitigates the challenges of appearance-related image alignment within and allows for a stronger focus on aligning with motion-related guidance.
arxiv情報
著者 | Yiming Zhang,Zhening Xing,Yanhong Zeng,Youqing Fang,Kai Chen |
発行日 | 2024-03-25 05:18:04+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google