VIEScore: Towards Explainable Metrics for Conditional Image Synthesis Evaluation

要約

急速に進歩している条件付き画像生成研究の分野では、さまざまなモデルのパフォーマンスと機能を効果的に評価する際に説明可能性が限られているなどの課題があります。
このペーパーでは、条件付き画像生成タスクを評価するための、視覚的な指示に基づいた説明可能な指標である VIESCORE を紹介します。
VIESCORE は、マルチモーダル大規模言語モデル (MLLM) からの一般的な知識をバックボーンとして活用しており、トレーニングや微調整を必要としません。
条件付き画像タスクの 7 つの顕著なタスクについて VIESCORE を評価したところ、次のことがわかりました。 (1) VIESCORE (GPT4-v) は、人間の評価とのスピアマン相関 0.3 という高い値を達成していますが、人間間の相関は 0.45 です。
(2) VIESCORE (オープンソース MLLM を使用) は、合成画像の評価において GPT-4v よりも大幅に劣ります。
(3) VIESCORE は生成タスクでは人間の評価と同等の相関を達成しますが、編集タスクでは苦戦します。
これらの結果により、VIESCORE は画像合成タスクの評価において人間の審査員に代わる大きな可能性を示したと考えられます。

要約(オリジナル)

In the rapidly advancing field of conditional image generation research, challenges such as limited explainability lie in effectively evaluating the performance and capabilities of various models. This paper introduces VIESCORE, a Visual Instruction-guided Explainable metric for evaluating any conditional image generation tasks. VIESCORE leverages general knowledge from Multimodal Large Language Models (MLLMs) as the backbone and does not require training or fine-tuning. We evaluate VIESCORE on seven prominent tasks in conditional image tasks and found: (1) VIESCORE (GPT4-v) achieves a high Spearman correlation of 0.3 with human evaluations, while the human-to-human correlation is 0.45. (2) VIESCORE (with open-source MLLM) is significantly weaker than GPT-4v in evaluating synthetic images. (3) VIESCORE achieves a correlation on par with human ratings in the generation tasks but struggles in editing tasks. With these results, we believe VIESCORE shows its great potential to replace human judges in evaluating image synthesis tasks.

arxiv情報

著者 Max Ku,Dongfu Jiang,Cong Wei,Xiang Yue,Wenhu Chen
発行日 2023-12-22 17:45:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV, cs.MM パーマリンク