要約
画像キャプションは、コンピューター ビジョンと自然言語処理にわたる重要な分野です。
我々は、エンコーダ/デコーダで空間アテンション アーキテクチャとテキスト属性を組み合わせた新しい属性情報結合アテンション ベース ネットワークである AIC-AB NET を提案および提示します。
キャプションの生成では、適応型空間注意により、どの画像領域が画像を最もよく表すか、視覚的特徴と視覚センチネルのどちらに注目するかが決定されます。
テキスト属性情報はデコーダに同期して供給され、画像認識を助け、不確実性を軽減します。
私たちは、MS COCO データセットと新しく提案されたファッション データセットで AICAB NET をテストし、評価しました。
ファッション データセットは、単一オブジェクト画像のベンチマークとして使用されます。
結果は、MSCOCO の画像と当社の単一オブジェクト画像の両方で、最先端のベースライン モデルやアブレーション モデルと比較して、提案されたモデルのパフォーマンスが優れていることを示しています。
当社の AIC-AB NET は、MS COCO データセットではベースライン アダプティブ アテンション ネットワークよりも 0.017 (CIDEr スコア)、ファッション データセットでは 0.095 (CIDEr スコア) 優れています。
要約(オリジナル)
Image captioning is a significant field across computer vision and natural language processing. We propose and present AIC-AB NET, a novel Attribute-Information-Combined Attention-Based Network that combines spatial attention architecture and text attributes in an encoder-decoder. For caption generation, adaptive spatial attention determines which image region best represents the image and whether to attend to the visual features or the visual sentinel. Text attribute information is synchronously fed into the decoder to help image recognition and reduce uncertainty. We have tested and evaluated our AICAB NET on the MS COCO dataset and a new proposed Fashion dataset. The Fashion dataset is employed as a benchmark of single-object images. The results show the superior performance of the proposed model compared to the state-of-the-art baseline and ablated models on both the images from MSCOCO and our single-object images. Our AIC-AB NET outperforms the baseline adaptive attention network by 0.017 (CIDEr score) on the MS COCO dataset and 0.095 (CIDEr score) on the Fashion dataset.
arxiv情報
著者 | Guoyun Tu,Ying Liu,Vladimir Vlassov |
発行日 | 2023-07-14 14:25:26+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google