要約
命令ガイド付き画像編集方法は、自動的に合成された、または手動で注釈が付けられた画像編集ペアで拡散モデルをトレーニングすることにより、大きな可能性を実証しました。
しかし、これらの方法は依然として実用的な現実の応用には程遠いです。
私たちは、このギャップの原因となっている 3 つの主な課題を特定します。
まず、既存のモデルは偏った合成プロセスにより編集スキルが限られています。
第 2 に、これらのメソッドは、大量のノイズとアーティファクトを含むデータセットを使用してトレーニングされます。
これは、CLIP-score などの単純なフィルタリング手法を適用しているためです。
第三に、これらすべてのデータセットは単一の低解像度と固定アスペクト比に制限されており、現実世界のユースケースを処理するための汎用性が制限されています。
このペーパーでは、任意のアスペクト比で 7 つの異なる画像編集タスクをシームレスに処理できる万能エディターである \omniedit を紹介します。
私たちの貢献は 4 つあります: (1) \omniedit は 7 つの異なる専門家モデルからの監督を利用してトレーニングされ、タスクを確実にカバーします。
(2) データ品質を向上させるために、CLIP スコアの代わりに大規模なマルチモーダル モデル (GPT-4o など) によって提供されるスコアに基づく重要度サンプリングを利用します。
(3) 編集の成功率を大幅に高めるために、EditNet と呼ばれる新しい編集アーキテクチャを提案します。(4) モデルが実際のあらゆる画像を処理できるように、さまざまなアスペクト比の画像を提供します。
私たちは、さまざまなタスクをカバーするためのさまざまな指示を伴う、さまざまなアスペクト比の画像を含むテスト セットを厳選しました。
自動評価と人間による評価の両方で、\omniedit が既存のすべてのモデルよりも大幅に優れたパフォーマンスを発揮できることが実証されています。
私たちのコード、データセット、モデルは \url{https://tiger-ai-lab.github.io/OmniEdit/} で入手できます。
要約(オリジナル)
Instruction-guided image editing methods have demonstrated significant potential by training diffusion models on automatically synthesized or manually annotated image editing pairs. However, these methods remain far from practical, real-life applications. We identify three primary challenges contributing to this gap. Firstly, existing models have limited editing skills due to the biased synthesis process. Secondly, these methods are trained with datasets with a high volume of noise and artifacts. This is due to the application of simple filtering methods like CLIP-score. Thirdly, all these datasets are restricted to a single low resolution and fixed aspect ratio, limiting the versatility to handle real-world use cases. In this paper, we present \omniedit, which is an omnipotent editor to handle seven different image editing tasks with any aspect ratio seamlessly. Our contribution is in four folds: (1) \omniedit is trained by utilizing the supervision from seven different specialist models to ensure task coverage. (2) we utilize importance sampling based on the scores provided by large multimodal models (like GPT-4o) instead of CLIP-score to improve the data quality. (3) we propose a new editing architecture called EditNet to greatly boost the editing success rate, (4) we provide images with different aspect ratios to ensure that our model can handle any image in the wild. We have curated a test set containing images of different aspect ratios, accompanied by diverse instructions to cover different tasks. Both automatic evaluation and human evaluations demonstrate that \omniedit can significantly outperform all the existing models. Our code, dataset and model will be available at \url{https://tiger-ai-lab.github.io/OmniEdit/}
arxiv情報
著者 | Cong Wei,Zheyang Xiong,Weiming Ren,Xinrun Du,Ge Zhang,Wenhu Chen |
発行日 | 2024-11-11 18:21:43+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google