CLAIR: Evaluating Image Captions with Large Language Models

要約

機械生成された画像キャプションの評価は、興味深いながらも根強い課題をもたらします。
効果的な評価方法では、意味的関連性、視覚的構造、オブジェクトの相互作用、キャプションの多様性、特異性など、類似性のさまざまな側面を考慮する必要があります。
既存の高度に設計された尺度は、特定の側面を捉えようとしていますが、人間の判断と密接に一致する総合的なスコアを提供するには不十分です。
ここでは、大規模言語モデル (LLM) のゼロショット言語モデリング機能を活用してキャプション候補を評価する新しい方法である CLAIR を提案します。
私たちの評価では、CLAIR は既存の尺度に比べて、字幕品質に対する人間の判断との強い相関関係を示しました。
特に、Flickr8K-Expert では、CLAIR は SPICE と比較して 39.6%、RefCLIP-S などの画像拡張手法と比較して 18.3% の相対相関改善を達成しています。
さらに、CLAIR は、割り当てられたスコアの背後にある根本的な推論を言語モデルが識別できるようにすることで、ノイズの多い解釈可能な結果を​​提供します。
コードは https://davidmchan.github.io/clair/ で入手できます。

要約(オリジナル)

The evaluation of machine-generated image captions poses an interesting yet persistent challenge. Effective evaluation measures must consider numerous dimensions of similarity, including semantic relevance, visual structure, object interactions, caption diversity, and specificity. Existing highly-engineered measures attempt to capture specific aspects, but fall short in providing a holistic score that aligns closely with human judgments. Here, we propose CLAIR, a novel method that leverages the zero-shot language modeling capabilities of large language models (LLMs) to evaluate candidate captions. In our evaluations, CLAIR demonstrates a stronger correlation with human judgments of caption quality compared to existing measures. Notably, on Flickr8K-Expert, CLAIR achieves relative correlation improvements over SPICE of 39.6% and over image-augmented methods such as RefCLIP-S of 18.3%. Moreover, CLAIR provides noisily interpretable results by allowing the language model to identify the underlying reasoning behind its assigned score. Code is available at https://davidmchan.github.io/clair/

arxiv情報

著者 David Chan,Suzanne Petryk,Joseph E. Gonzalez,Trevor Darrell,John Canny
発行日 2023-10-19 17:59:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク