要約
このホワイト ペーパーでは、画像キャプション生成システムによって生成されるキャプションの強化に焦点を当てています。
モデルによって生成される可能性が最も高い出力ではなく、画像に最も密接に関連する出力を選択することにより、キャプション生成システムを改善するアプローチを提案します。
私たちのモデルは、視覚的なコンテキストの観点から言語生成出力ビーム検索を修正します。
適切なキャプションを画像内の関連情報に一致させるために、単語および文レベルで視覚的な意味測定を採用しています。
提案されたアプローチは、後処理ベースの方法として、任意のキャプション システムに適用できます。
要約(オリジナル)
This paper focuses on enhancing the captions generated by image-caption generation systems. We propose an approach for improving caption generation systems by choosing the most closely related output to the image rather than the most likely output produced by the model. Our model revises the language generation output beam search from a visual context perspective. We employ a visual semantic measure in a word and sentence level manner to match the proper caption to the related information in the image. The proposed approach can be applied to any caption system as a post-processing based method.
arxiv情報
著者 | Ahmed Sabir |
発行日 | 2022-09-26 16:24:13+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google