要約
画像キャプションモデルは通常、人間が注釈を付けた真実のキャプションに従って学習されるため、正確ではあるが一般的なキャプションが生成される可能性がある。キャプションの識別性を向上させるために、我々はまず、大規模な視覚言語事前学習モデルCLIPを用いて、キャプションの識別性を評価する一連のメトリクスを提案する。次に、類似画像群内での比較によりモデルを学習する、シンプルで効果的な学習方法を提案する。我々は、既存の様々なモデルに対して広範な実験を行い、我々の戦略の広範な適用可能性と、メトリックに基づく結果と人間の評価との一貫性を実証する。我々の提案するモデルの性能を既存の最先端モデルと比較することにより、我々のモデルが識別性の目的に対して新たな最先端を達成することを主張する。
要約(オリジナル)
Image captioning models are usually trained according to human annotated ground-truth captions, which could generate accurate but generic captions. To improve the distinctiveness of captioning models, we firstly propose a series of metrics that use large-scale vision-language pre-training model CLIP to evaluate the distinctiveness of captions. Then we propose a simple and effective training strategy which trains the model by comparison within similar image groups. We conduct extensive experiments on various existing models to demonstrate the wide applicability of our strategy and the consistency of metric based results with human evaluation. By comparing the performance of our best model with existing state-of-the-art models, we claim that our model achieves new state-of-the-art towards distinctiveness objective.
arxiv情報
著者 | Youyuan Zhang,Jiuniu Wang,Hao Wu,Wenjia Xu |
発行日 | 2022-08-08 16:37:01+00:00 |
arxivサイト | arxiv_id(pdf) |