Surveying the Landscape of Image Captioning Evaluation: A Comprehensive Taxonomy and Novel Ensemble Method

要約

画像キャプションのタスクは最近人気が高まっており、それに伴い、画像キャプション モデルの品質を評価するという複雑なタスクも行われています。
この研究では、70 を超える異なる画像キャプション指標の最初の調査と分類法、および数百の論文におけるそれらの使用法を紹介します。
提案された指標の多様性にもかかわらず、大多数の研究は 5 つの一般的な指標のみに依存していることがわかり、これらの指標は人間の判断と弱い相関関係にあることがわかりました。
代わりに、私たちは EnsembEval を提案します。EnsembEval は、5 つの画像キャプション データセットにわたって人間の判断との最も高い相関関係が報告されている評価手法の集合体であり、多様な指標セットを活用することで改善の余地が多くあることを示しています。

要約(オリジナル)

The task of image captioning has recently been gaining popularity, and with it the complex task of evaluating the quality of image captioning models. In this work, we present the first survey and taxonomy of over 70 different image captioning metrics and their usage in hundreds of papers. We find that despite the diversity of proposed metrics, the vast majority of studies rely on only five popular metrics, which we show to be weakly correlated with human judgements. Instead, we propose EnsembEval — an ensemble of evaluation methods achieving the highest reported correlation with human judgements across 5 image captioning datasets, showing there is a lot of room for improvement by leveraging a diverse set of metrics.

arxiv情報

著者 Uri Berger,Gabriel Stanovsky,Omri Abend,Lea Frermann
発行日 2024-08-09 07:31:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV パーマリンク