要約
生成AIの最近の進歩に支えられたテキスト誘導画像編集は、ますます広まっています。
この傾向は、テキスト誘導編集を検証し、その品質を評価するための包括的なフレームワークの必要性を強調しています。
このニーズに対処するために、編集のために広範なテンプレートを使用して収集された人間の注釈に基づいて、テキスト誘導画像編集の評価のための新しいベンチマークであるEditinspectorを紹介します。
編集者を活用して、精度、アーティファクト検出、視覚品質、画像シーンとのシームレスな統合、常識への順守、編集誘導の変化を説明する能力など、さまざまな次元にわたる編集を評価する際に、最先端(SOTA)ビジョンと言語モデルのパフォーマンスを評価します。
私たちの調査結果は、現在のモデルが編集を包括的に頻繁に幻覚にするのに苦労していることを示しています。
これらの課題に対処するために、アーティファクト検出と差分キャプション生成の両方でSOTAモデルを上回る2つの新しい方法を提案します。
要約(オリジナル)
Text-guided image editing, fueled by recent advancements in generative AI, is becoming increasingly widespread. This trend highlights the need for a comprehensive framework to verify text-guided edits and assess their quality. To address this need, we introduce EditInspector, a novel benchmark for evaluation of text-guided image edits, based on human annotations collected using an extensive template for edit verification. We leverage EditInspector to evaluate the performance of state-of-the-art (SoTA) vision and language models in assessing edits across various dimensions, including accuracy, artifact detection, visual quality, seamless integration with the image scene, adherence to common sense, and the ability to describe edit-induced changes. Our findings indicate that current models struggle to evaluate edits comprehensively and frequently hallucinate when describing the changes. To address these challenges, we propose two novel methods that outperform SoTA models in both artifact detection and difference caption generation.
arxiv情報
著者 | Ron Yosef,Moran Yanuka,Yonatan Bitton,Dani Lischinski |
発行日 | 2025-06-11 17:58:25+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google