Word to Sentence Visual Semantic Similarity for Caption Generation: Lessons Learned

要約

この文書は、画像キャプション生成システムによって生成されるキャプションの強化に焦点を当てています。
モデルによって生成される可能性が最も高い出力ではなく、画像に最も密接に関連する出力を選択することで、キャプション生成システムを改善するアプローチを提案します。
私たちのモデルは、視覚的なコンテキストの観点から言語生成出力ビーム検索を修正します。
単語および文レベルで視覚的意味論的尺度を採用し、適切なキャプションを画像内の関連情報と照合します。
提案されたアプローチは、後処理ベースの方法としてあらゆるキャプション システムに適用できます。

要約(オリジナル)

This paper focuses on enhancing the captions generated by image-caption generation systems. We propose an approach for improving caption generation systems by choosing the most closely related output to the image rather than the most likely output produced by the model. Our model revises the language generation output beam search from a visual context perspective. We employ a visual semantic measure in a word and sentence level manner to match the proper caption to the related information in the image. The proposed approach can be applied to any caption system as a post-processing based method.

arxiv情報

著者 Ahmed Sabir
発行日 2023-07-06 22:58:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV パーマリンク