$\texttt{Complex-Edit}$: CoT-Like Instruction Generation for Complexity-Controllable Image Editing Benchmark

要約

さまざまな複雑さの指示にわたって命令ベースの画像編集モデルを体系的に評価するために設計された包括的なベンチマークである$ \ texttt {complex-edit} $を紹介します。
このベンチマークを開発するために、GPT-4oを利用して、大規模に多様な編集手順を自動的に収集します。
私たちのアプローチは、適切に構造化された「チェーンオブエディット」パイプラインに従います。最初に個々のアトミック編集タスクを個別に生成し、それらを統合してまとまりのある複雑な指示を形成します。
さらに、大規模な評価をサポートするVLMベースの自動評価パイプラインとともに、編集パフォーマンスのさまざまな側面を評価するための一連のメトリックを紹介します。
私たちのベンチマークは、いくつかの顕著な洞察をもたらします。1)オープンソースモデルは、独自のクローズドソースモデルと比較して大幅にパフォーマンスが低く、命令の複雑さが増加するにつれてパフォーマンスギャップが広がります。
2)指導の複雑さの向上は、主に入力画像から重要な要素を保持し、全体的な美的品質を維持するモデルの能力を主に損なう。
3)複雑な命令を一連の原子ステップに分解し、ステップバイステップで実行され、複数のメトリックにわたってパフォーマンスを大幅に低下させます。
4)直接的な編集とステップバイステップのシーケンシャルアプローチの両方の結果を改善します。
5)「合成データの呪い」を観察します。合成データがモデルトレーニングに関与している場合、編集命令の複雑さが上昇するにつれて、このようなモデルからの編集された画像はますます合成される傾向があります。

要約(オリジナル)

We introduce $\texttt{Complex-Edit}$, a comprehensive benchmark designed to systematically evaluate instruction-based image editing models across instructions of varying complexity. To develop this benchmark, we harness GPT-4o to automatically collect a diverse set of editing instructions at scale. Our approach follows a well-structured “Chain-of-Edit” pipeline: we first generate individual atomic editing tasks independently and then integrate them to form cohesive, complex instructions. Additionally, we introduce a suite of metrics to assess various aspects of editing performance, along with a VLM-based auto-evaluation pipeline that supports large-scale assessments. Our benchmark yields several notable insights: 1) Open-source models significantly underperform relative to proprietary, closed-source models, with the performance gap widening as instruction complexity increases; 2) Increased instructional complexity primarily impairs the models’ ability to retain key elements from the input images and to preserve the overall aesthetic quality; 3) Decomposing a complex instruction into a sequence of atomic steps, executed in a step-by-step manner, substantially degrades performance across multiple metrics; 4) A straightforward Best-of-N selection strategy improves results for both direct editing and the step-by-step sequential approach; and 5) We observe a “curse of synthetic data”: when synthetic data is involved in model training, the edited images from such models tend to appear increasingly synthetic as the complexity of the editing instructions rises — a phenomenon that intriguingly also manifests in the latest GPT-4o outputs.

arxiv情報

著者 Siwei Yang,Mude Hui,Bingchen Zhao,Yuyin Zhou,Nataniel Ruiz,Cihang Xie
発行日 2025-04-17 17:51:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク