要約
命令ガイド付き画像編集方法は、自動的に合成または手動で注釈付きの画像編集ペアで拡散モデルをトレーニングすることにより、重要な可能性を実証しています。
ただし、これらの方法は、実用的な実際のアプリケーションとはほど遠いままです。
このギャップに寄与する3つの主要な課題を特定します。
第一に、既存のモデルの偏った合成プロセスにより、編集スキルは限られています。
第二に、これらの方法は、大量のノイズとアーティファクトを備えたデータセットでトレーニングされています。
これは、クリップスコアなどの単純なフィルタリング方法の適用によるものです。
第三に、これらのすべてのデータセットは、単一の低解像度と固定アスペクト比に制限されており、実際のユースケースを処理するための汎用性を制限します。
このホワイトペーパーでは、あらゆるアスペクト比でシームレスに7つの異なる画像編集タスクを処理する全能エディターである\ omnieditを提示します。
私たちの貢献は4倍になります。(1)\ omnieditは、7つの異なる専門モデルの監督を利用してタスクのカバレッジを確保することで訓練されています。
(2)データ品質を向上させるために、クリップスコアの代わりに大規模なマルチモーダルモデル(GPT-4Oなど)が提供するスコアに基づいて重要なサンプリングを利用します。
(3)編集の成功率を大幅に高めるために、編集と呼ばれる新しい編集アーキテクチャを提案します。(4)モデルが野生の任意の画像を処理できるように、異なるアスペクト比の画像を提供します。
さまざまなアスペクト比の画像を含むテストセットをキュレーションし、さまざまなタスクをカバーするための多様な指示を伴いました。
自動評価と人間の評価の両方が、\ omnieditが既存のすべてのモデルを大幅に上回ることができることを示しています。
私たちのコード、データセット、モデルはhttps://tiger-ai-lab.github.io/omniedit/で入手できます。
要約(オリジナル)
Instruction-guided image editing methods have demonstrated significant potential by training diffusion models on automatically synthesized or manually annotated image editing pairs. However, these methods remain far from practical, real-life applications. We identify three primary challenges contributing to this gap. Firstly, existing models have limited editing skills due to the biased synthesis process. Secondly, these methods are trained with datasets with a high volume of noise and artifacts. This is due to the application of simple filtering methods like CLIP-score. Thirdly, all these datasets are restricted to a single low resolution and fixed aspect ratio, limiting the versatility to handle real-world use cases. In this paper, we present \omniedit, which is an omnipotent editor to handle seven different image editing tasks with any aspect ratio seamlessly. Our contribution is in four folds: (1) \omniedit is trained by utilizing the supervision from seven different specialist models to ensure task coverage. (2) we utilize importance sampling based on the scores provided by large multimodal models (like GPT-4o) instead of CLIP-score to improve the data quality. (3) we propose a new editing architecture called EditNet to greatly boost the editing success rate, (4) we provide images with different aspect ratios to ensure that our model can handle any image in the wild. We have curated a test set containing images of different aspect ratios, accompanied by diverse instructions to cover different tasks. Both automatic evaluation and human evaluations demonstrate that \omniedit can significantly outperform all the existing models. Our code, dataset and model will be available at https://tiger-ai-lab.github.io/OmniEdit/
arxiv情報
著者 | Cong Wei,Zheyang Xiong,Weiming Ren,Xinrun Du,Ge Zhang,Wenhu Chen |
発行日 | 2025-04-28 14:16:29+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google