Top-Down Framework for Weakly-supervised Grounded Image Captioning

要約

弱教師付き接地画像キャプション付け(WSGIC)は、バウンディングボックス監視を使用せずに、入力画像内のキャプションを生成し、予測されたオブジェクト単語を接地(ローカライズ)することを目的としている。(1)オブジェクト検出器を用いて入力画像を複数の領域特徴にエンコードする。(2)領域特徴をキャプション生成とグラウンディングに利用する。しかし、オブジェクト検出器によって生成された独立した提案を利用することは、後続の接地キャプション作成者が正しいオブジェクト単語を見つける際に過剰に適合し、オブジェクト間の関係を見落とし、接地するために互換性のない提案領域を選択する傾向がある。これらの問題に対処するため、我々は、トップダウンの画像レベルでキャプション付けとグラウンディングを実行するために、RGB画像を直接入力とする1段階の弱い教師付きグラウンデッドキャプション付け器を提案する。具体的には、画像を視覚トークン表現に符号化し、オブジェクトの空間的位置を認識する正確な視覚言語アテンションマップ(VLAM)を得るために、デコーダにおいてリカレントグラウンディングモジュール(RGM)を提案する。さらに、多ラベル分類による関係理解を促進するために、1段階のフレームワークに関係モジュールを明示的に注入する。この関係セマンティクスは、キャプション中の関係語と対象語の予測を容易にする文脈情報として機能する。我々は、関係セマンティックが、より正確なキャプションを生成する際に接地キャプション作成者を支援するだけでなく、接地性能も向上させることを観察した。2つの困難なデータセット(Flick30k EntitiesキャプションとMSCOCOキャプション)を用いて、提案手法の有効性を検証する。実験結果は、我々の手法が最先端のグラウンディング性能を達成することを示す。

要約(オリジナル)

Weakly-supervised grounded image captioning (WSGIC) aims to generate the caption and ground (localize) predicted object words in the input image without using bounding box supervision. Recent two-stage solutions mostly apply a bottom-up pipeline: (1) encode the input image into multiple region features using an object detector; (2) leverage region features for captioning and grounding. However, utilizing independent proposals produced by object detectors tends to make the subsequent grounded captioner overfitted in finding the correct object words, overlooking the relation between objects, and selecting incompatible proposal regions for grounding. To address these issues, we propose a one-stage weakly-supervised grounded captioner that directly takes the RGB image as input to perform captioning and grounding at the top-down image level. Specifically, we encode the image into visual token representations and propose a Recurrent Grounding Module (RGM) in the decoder to obtain precise Visual Language Attention Maps (VLAMs), which recognize the spatial locations of the objects. In addition, we explicitly inject a relation module into our one-stage framework to encourage relation understanding through multi-label classification. This relation semantics served as contextual information facilitating the prediction of relation and object words in the caption. We observe that the relation semantic not only assists the grounded captioner in generating a more accurate caption but also improves the grounding performance. We validate the effectiveness of our proposed method on two challenging datasets (Flick30k Entities captioning and MSCOCO captioning). The experimental results demonstrate that our method achieves state-of-the-art grounding performance.

arxiv情報

著者 Chen Cai,Suchen Wang,Kim-hui Yap,Yi Wang
発行日 2024-03-02 15:10:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク