GIE-Bench: Towards Grounded Evaluation for Text-Guided Image Editing

要約

自然言語の指示を使用した画像の編集は、視覚的なコンテンツを変更する自然で表現力のある方法になりました。
しかし、このようなモデルのパフォーマンスを評価することは依然として困難です。
既存の評価アプローチは、多くの場合、正確さを欠いているクリップのような画像テキストの類似性メトリックに依存しています。
この作業では、2つの重要な次元に沿って、より根拠のある方法でテキスト誘導画像編集モデルを評価するために設計された新しいベンチマークを導入します。(i)意図的な変更が正常に適用されたかどうかを確認する自動的に生成された複数選択の質問を介して評価される機能的正しさ。
(ii)画像コンテンツの保存。これにより、オブジェクト認識マスキングテクニックと保存スコアリングを使用して、画像の非標的領域が視覚的に一貫性を保つことが保証されます。
ベンチマークには、20の多様なコンテンツカテゴリにわたって1000を超える高品質の編集例が含まれており、それぞれに詳細な編集手順、評価の質問、および空間オブジェクトマスクが注釈が付けられています。
Text Guided画像編集スペースの最新のフラッグシップであるGPT-Image-1を、いくつかの最先端の編集モデルと比較した大規模な研究を実施し、人間の評価に対する自動メトリックを検証します。
結果は、GPT-Image-1が命令に従う精度でリードしているが、多くの場合、無関係な画像領域を過度に変化させ、現在のモデルの動作の重要なトレードオフを強調していることを示しています。
Gie-Benchは、テキスト誘導画像編集のより正確な評価を進めるためのスケーラブルで再現可能なフレームワークを提供します。

要約(オリジナル)

Editing images using natural language instructions has become a natural and expressive way to modify visual content; yet, evaluating the performance of such models remains challenging. Existing evaluation approaches often rely on image-text similarity metrics like CLIP, which lack precision. In this work, we introduce a new benchmark designed to evaluate text-guided image editing models in a more grounded manner, along two critical dimensions: (i) functional correctness, assessed via automatically generated multiple-choice questions that verify whether the intended change was successfully applied; and (ii) image content preservation, which ensures that non-targeted regions of the image remain visually consistent using an object-aware masking technique and preservation scoring. The benchmark includes over 1000 high-quality editing examples across 20 diverse content categories, each annotated with detailed editing instructions, evaluation questions, and spatial object masks. We conduct a large-scale study comparing GPT-Image-1, the latest flagship in the text-guided image editing space, against several state-of-the-art editing models, and validate our automatic metrics against human ratings. Results show that GPT-Image-1 leads in instruction-following accuracy, but often over-modifies irrelevant image regions, highlighting a key trade-off in the current model behavior. GIE-Bench provides a scalable, reproducible framework for advancing more accurate evaluation of text-guided image editing.

arxiv情報

著者 Yusu Qian,Jiasen Lu,Tsu-Jui Fu,Xinze Wang,Chen Chen,Yinfei Yang,Wenze Hu,Zhe Gan
発行日 2025-05-16 17:55:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク