要約
CLIP モデルは、視覚と言語のアーキテクチャから生成されたキャプションの評価など、さまざまなクロスモーダル タスクに非常に効果的であることが最近証明されました。
この論文では、画像キャプション用の対比ベースの評価指標の新しいレシピ、つまりポジティブ拡張対比学習スコア (PAC-S) を提案します。これは、キュレートされたデータに生成された画像とテキストを追加することで、対照的な視覚意味論的空間の学習を新しい方法で統合します。
複数のデータセットにわたる実験では、私たちの新しい指標が画像とビデオの両方について人間の判断と最も高い相関関係を達成し、CIDEr や SPICE などの既存の参照ベースの指標や CLIP-Score などの参照不要の指標を上回るパフォーマンスを示していることが実証されています。
最後に、一般的な画像キャプション手法を検討する際に、提案された指標のシステムレベルの相関関係をテストし、さまざまなクロスモーダル機能を採用した場合の影響を評価します。
私たちのソース コードとトレーニング済みモデルは、https://github.com/aimagelab/pacscore で公開されています。
要約(オリジナル)
The CLIP model has been recently proven to be very effective for a variety of cross-modal tasks, including the evaluation of captions generated from vision-and-language architectures. In this paper, we propose a new recipe for a contrastive-based evaluation metric for image captioning, namely Positive-Augmented Contrastive learning Score (PAC-S), that in a novel way unifies the learning of a contrastive visual-semantic space with the addition of generated images and text on curated data. Experiments spanning several datasets demonstrate that our new metric achieves the highest correlation with human judgments on both images and videos, outperforming existing reference-based metrics like CIDEr and SPICE and reference-free metrics like CLIP-Score. Finally, we test the system-level correlation of the proposed metric when considering popular image captioning approaches, and assess the impact of employing different cross-modal features. Our source code and trained models are publicly available at: https://github.com/aimagelab/pacscore.
arxiv情報
著者 | Sara Sarto,Manuele Barraco,Marcella Cornia,Lorenzo Baraldi,Rita Cucchiara |
発行日 | 2023-07-20 08:16:09+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google