UniReal: Universal Image Generation and Editing via Learning Real-world Dynamics

要約

さまざまな画像生成および編集タスクに対処するために設計された統合フレームワークである UniReal を紹介します。
既存のソリューションはタスクによって異なることがよくありますが、視覚的な変化を捉えながら入力と出力の間の一貫性を維持するという基本原則を共有しています。
フレーム間の一貫性と変動のバランスを効果的にとる最近のビデオ生成モデルに触発され、画像レベルのタスクを不連続なビデオ生成として扱う統合アプローチを提案します。
具体的には、さまざまな数の入出力画像をフレームとして扱い、画像の生成、編集、カスタマイズ、合成などのタスクをシームレスにサポートできるようにします。画像レベルのタスク向けに設計されていますが、普遍的な監視のためのスケーラブルなソースとしてビデオを活用しています。

UniReal は、大規模なビデオから世界のダイナミクスを学習し、影、反射、ポーズのバリエーション、オブジェクトの相互作用を処理する高度な機能を実証すると同時に、新しいアプリケーション向けの新しい機能も示します。

要約(オリジナル)

We introduce UniReal, a unified framework designed to address various image generation and editing tasks. Existing solutions often vary by tasks, yet share fundamental principles: preserving consistency between inputs and outputs while capturing visual variations. Inspired by recent video generation models that effectively balance consistency and variation across frames, we propose a unifying approach that treats image-level tasks as discontinuous video generation. Specifically, we treat varying numbers of input and output images as frames, enabling seamless support for tasks such as image generation, editing, customization, composition, etc. Although designed for image-level tasks, we leverage videos as a scalable source for universal supervision. UniReal learns world dynamics from large-scale videos, demonstrating advanced capability in handling shadows, reflections, pose variation, and object interaction, while also exhibiting emergent capability for novel applications.

arxiv情報

著者 Xi Chen,Zhifei Zhang,He Zhang,Yuqian Zhou,Soo Ye Kim,Qing Liu,Yijun Li,Jianming Zhang,Nanxuan Zhao,Yilin Wang,Hui Ding,Zhe Lin,Hengshuang Zhao
発行日 2024-12-10 18:59:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク