要約
最近、さまざまなテキスト誘導画像編集モデルが提案されています。
ただし、主にタスクの主観的な性質のために、広く受け入れられている標準評価方法はありません。研究者は手動ユーザーの調査に依存させます。
これに対処するために、テキスト誘導画像編集(HATIE)のための新しい人間に合ったベンチマークを紹介します。
幅広い編集タスクをカバーする大規模なベンチマークセットを提供すると、特定の簡単なケースに限定されない信頼できる評価が可能になります。
また、Hatieは完全に自動化された全方向性評価パイプラインを提供します。
特に、編集のさまざまな側面を測定する複数のスコアを組み合わせて、人間の知覚と整合します。
Hatieの評価が実際にさまざまな面で人間に整合していることを経験的に検証し、いくつかの最先端のモデルのベンチマーク結果を提供して、パフォーマンスに関するより深い洞察を提供します。
要約(オリジナル)
A variety of text-guided image editing models have been proposed recently. However, there is no widely-accepted standard evaluation method mainly due to the subjective nature of the task, letting researchers rely on manual user study. To address this, we introduce a novel Human-Aligned benchmark for Text-guided Image Editing (HATIE). Providing a large-scale benchmark set covering a wide range of editing tasks, it allows reliable evaluation, not limited to specific easy-to-evaluate cases. Also, HATIE provides a fully-automated and omnidirectional evaluation pipeline. Particularly, we combine multiple scores measuring various aspects of editing so as to align with human perception. We empirically verify that the evaluation of HATIE is indeed human-aligned in various aspects, and provide benchmark results on several state-of-the-art models to provide deeper insights on their performance.
arxiv情報
著者 | Suho Ryu,Kihyun Kim,Eugene Baek,Dongsoo Shin,Joonseok Lee |
発行日 | 2025-05-01 13:06:05+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google