VIEScore: Towards Explainable Metrics for Conditional Image Synthesis Evaluation

要約

急速に進展する条件付き画像生成の研究分野において、様々なモデルの性能や能力を効果的に評価するためには、説明可能性が限定的であるなどの課題が横たわっている。本論文では、あらゆる条件付き画像生成タスクを評価するための視覚的指示誘導型説明可能指標であるVIEScoreを紹介する。VIEScoreはマルチモーダル大規模言語モデル(MLLM)からの一般的な知識をバックボーンとして活用し、訓練や微調整を必要としない。VIEScoreを条件付き画像タスクの著名な7つのタスクで評価した結果、(1) VIEScore (GPT4-o)は人間の評価と0.4という高いスピアマン相関を達成し、人間同士の相関は0.45であった。(2)VIEScore(オープンソースのMLLMを使用)はGPT-4oやGPT-4vに比べ、合成画像の評価において著しく劣る。(3)VIEScoreは生成タスクでは人間の評価と同等の相関を達成したが、編集タスクでは苦戦した。これらの結果から、VIEScoreは画像合成タスクの評価において、人間の判定に代わる大きな可能性を示していると考えられる。

要約(オリジナル)

In the rapidly advancing field of conditional image generation research, challenges such as limited explainability lie in effectively evaluating the performance and capabilities of various models. This paper introduces VIEScore, a Visual Instruction-guided Explainable metric for evaluating any conditional image generation tasks. VIEScore leverages general knowledge from Multimodal Large Language Models (MLLMs) as the backbone and does not require training or fine-tuning. We evaluate VIEScore on seven prominent tasks in conditional image tasks and found: (1) VIEScore (GPT4-o) achieves a high Spearman correlation of 0.4 with human evaluations, while the human-to-human correlation is 0.45. (2) VIEScore (with open-source MLLM) is significantly weaker than GPT-4o and GPT-4v in evaluating synthetic images. (3) VIEScore achieves a correlation on par with human ratings in the generation tasks but struggles in editing tasks. With these results, we believe VIEScore shows its great potential to replace human judges in evaluating image synthesis tasks.

arxiv情報

著者 Max Ku,Dongfu Jiang,Cong Wei,Xiang Yue,Wenhu Chen
発行日 2024-06-03 16:59:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL, cs.CV, cs.MM パーマリンク