Step1X-Edit: A Practical Framework for General Image Editing

要約

近年、画像編集モデルは驚くべき急速な発展を目撃しています。
GPT-4OやGemini2 Flashなどの最先端のマルチモーダルモデルの最近の発表により、非常に有望な画像編集機能が導入されました。
これらのモデルは、ユーザー駆動型の編集要件の大部分を満たすことに対する印象的な適性を示しており、画像操作の分野での大幅な進歩を示しています。
ただし、これらのクローズドソースモデルを使用して、オープンソースアルゴリズムの間にはまだ大きなギャップがあります。
したがって、この論文では、GPT-4OやGemini2 Flashなどのクローズドソースモデルと同等のパフォーマンスを提供できるStep1x-Editと呼ばれる最先端の画像編集モデルをリリースすることを目指しています。
より具体的には、マルチモーダルLLMを採用して、参照画像とユーザーの編集命令を処理します。
潜在的な埋め込みが抽出され、拡散画像デコーダーと統合されて、ターゲット画像が取得されます。
モデルをトレーニングするために、データ生成パイプラインを構築して高品質のデータセットを作成します。
評価のために、実際のユーザーの指示に根ざした新しいベンチマークであるGEDITベンチを開発します。
GEDITベンチの実験結果は、STEP1X-EDITが既存のオープンソースベースラインを大幅にマージンで上回り、主要な独自モデルのパフォーマンスに近づいていることを示しており、それにより画像編集の分野に多大な貢献をしています。

要約(オリジナル)

In recent years, image editing models have witnessed remarkable and rapid development. The recent unveiling of cutting-edge multimodal models such as GPT-4o and Gemini2 Flash has introduced highly promising image editing capabilities. These models demonstrate an impressive aptitude for fulfilling a vast majority of user-driven editing requirements, marking a significant advancement in the field of image manipulation. However, there is still a large gap between the open-source algorithm with these closed-source models. Thus, in this paper, we aim to release a state-of-the-art image editing model, called Step1X-Edit, which can provide comparable performance against the closed-source models like GPT-4o and Gemini2 Flash. More specifically, we adopt the Multimodal LLM to process the reference image and the user’s editing instruction. A latent embedding has been extracted and integrated with a diffusion image decoder to obtain the target image. To train the model, we build a data generation pipeline to produce a high-quality dataset. For evaluation, we develop the GEdit-Bench, a novel benchmark rooted in real-world user instructions. Experimental results on GEdit-Bench demonstrate that Step1X-Edit outperforms existing open-source baselines by a substantial margin and approaches the performance of leading proprietary models, thereby making significant contributions to the field of image editing.

arxiv情報

著者 Shiyu Liu,Yucheng Han,Peng Xing,Fukun Yin,Rui Wang,Wei Cheng,Jiaqi Liao,Yingming Wang,Honghao Fu,Chunrui Han,Guopeng Li,Yuang Peng,Quan Sun,Jingwei Wu,Yan Cai,Zheng Ge,Ranchen Ming,Lei Xia,Xianfang Zeng,Yibo Zhu,Binxing Jiao,Xiangyu Zhang,Gang Yu,Daxin Jiang
発行日 2025-04-24 17:25:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク