要約
画像キャプションモデルは通常、人間が注釈を付けた真実のキャプションに従って学習されるため、正確ではあるが一般的なキャプションを生成することが可能である。本論文では、ターゲット画像を他の類似画像と区別することができる特徴的なキャプションを生成することに焦点を当てる。キャプションの識別性を評価するために、大規模な視覚言語事前学習モデルCLIPを用いた一連のメトリクスを導入し、識別性の定量化を行う。キャプションモデルの識別性をさらに向上させるために、ターゲット画像と類似画像群を比較し、グループ埋め込みギャップを最適化することでモデルを学習する、シンプルで効果的な学習戦略を提案する。様々なベースラインモデルに対して広範な実験を行い、我々の戦略の広範な適用可能性と、メトリック結果の人間評価との一貫性を実証する。また、本モデルと既存のモデルを比較することにより、本モデルが識別性の目標に対して新たな目標を達成することを示す。
要約(オリジナル)
Image captioning models are usually trained according to human annotated ground-truth captions, which could generate accurate but generic captions. In this paper, we focus on generating the distinctive captions that can distinguish the target image from other similar images. To evaluate the distinctiveness of captions, we introduce a series of metrics that use large-scale vision-language pre-training model CLIP to quantify the distinctiveness. To further improve the distinctiveness of captioning models, we propose a simple and effective training strategy which trains the model by comparing target image with similar image group and optimizing the group embedding gap. Extensive experiments are conducted on various baseline models to demonstrate the wide applicability of our strategy and the consistency of metric results with human evaluation. By comparing the performance of our best model with existing state-of-the-art models, we claim that our model achieves new state-of-the-art towards distinctiveness objective.
arxiv情報
著者 | Youyuan Zhang,Jiuniu Wang,Hao Wu,Wenjia Xu |
発行日 | 2022-08-11 16:52:54+00:00 |
arxivサイト | arxiv_id(pdf) |