要約
CLIP モデルは最近、視覚と言語のアーキテクチャから生成されたキャプションの評価を含む、さまざまなクロスモーダル タスクに非常に効果的であることが証明されています。
このホワイト ペーパーでは、画像キャプションのコントラスト ベースの評価メトリック、つまり正の拡張コントラスト学習スコア (PAC-S) の新しいレシピを提案します。
キュレートされたデータに生成された画像とテキストを追加します。
いくつかのデータセットにまたがる実験は、私たちの新しいメトリックが画像とビデオの両方で人間の判断と最も高い相関関係を達成し、CIDEr や SPICE などの既存の参照ベースのメトリックや CLIP-Score などの参照のないメトリックよりも優れていることを示しています。
最後に、一般的な画像キャプション アプローチを検討する際に、提案されたメトリックのシステム レベルの相関関係をテストし、さまざまなクロスモーダル機能を採用した場合の影響を評価します。
ソース コードとトレーニング済みモデルは、https://github.com/aimagelab/pacscore で公開されています。
要約(オリジナル)
The CLIP model has been recently proven to be very effective for a variety of cross-modal tasks, including the evaluation of captions generated from vision-and-language architectures. In this paper, we propose a new recipe for a contrastive-based evaluation metric for image captioning, namely Positive-Augmented Contrastive learning Score (PAC-S), that in a novel way unifies the learning of a contrastive visual-semantic space with the addition of generated images and text on curated data. Experiments spanning several datasets demonstrate that our new metric achieves the highest correlation with human judgments on both images and videos, outperforming existing reference-based metrics like CIDEr and SPICE and reference-free metrics like CLIP-Score. Finally, we test the system-level correlation of the proposed metric when considering popular image captioning approaches, and assess the impact of employing different cross-modal features. Our source code and trained models are publicly available at: https://github.com/aimagelab/pacscore.
arxiv情報
著者 | Sara Sarto,Manuele Barraco,Marcella Cornia,Lorenzo Baraldi,Rita Cucchiara |
発行日 | 2023-03-21 18:03:14+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google