Improving Image Captioning via Predicting Structured Concepts

要約

画像キャプションタスクでは画像とテキストの間の意味論的なギャップを解決することが困難であるため、この分野の従来の研究では、2つのモダリティ間の橋渡しとして意味概念を扱い、それに応じてキャプションパフォーマンスを向上させることにある程度の注意を払っていました。
概念予測に関して有望な結果が得られましたが、前述の研究は通常、画像内のオブジェクトだけでなくテキスト内の単語の依存関係にも依存する概念間の関係を無視しているため、優れた概念を生成するプロセスを改善するかなりの可能性を提供します。
説明。
この論文では、概念とその構造を予測する構造化概念予測器 (SCP) を提案し、それをキャプションに統合します。これにより、このタスクにおける視覚信号の寄与を概念を介して強化し、概念間の関係をさらに使用して相互概念を区別します。
より適切な説明を生成するためのモーダル セマンティクス。
特に、単語の依存関係によって駆動される概念関係を表現するために重み付きグラフ畳み込みネットワーク (W-GCN) を設計し、その後の復号プロセスのためにこれらの概念からの差別化された寄与を学習します。
したがって、私たちのアプローチは概念間の潜在的な関係を捕捉し、異なる概念を識別して学習することで、モダリティ全体で継承された情報を含む画像キャプションを効果的に促進します。
広範な実験とその結果は、私たちのアプローチとこの作業で提案された各モジュールの有効性を示しています。

要約(オリジナル)

Having the difficulty of solving the semantic gap between images and texts for the image captioning task, conventional studies in this area paid some attention to treating semantic concepts as a bridge between the two modalities and improved captioning performance accordingly. Although promising results on concept prediction were obtained, the aforementioned studies normally ignore the relationship among concepts, which relies on not only objects in the image, but also word dependencies in the text, so that offers a considerable potential for improving the process of generating good descriptions. In this paper, we propose a structured concept predictor (SCP) to predict concepts and their structures, then we integrate them into captioning, so as to enhance the contribution of visual signals in this task via concepts and further use their relations to distinguish cross-modal semantics for better description generation. Particularly, we design weighted graph convolutional networks (W-GCN) to depict concept relations driven by word dependencies, and then learns differentiated contributions from these concepts for following decoding process. Therefore, our approach captures potential relations among concepts and discriminatively learns different concepts, so that effectively facilitates image captioning with inherited information across modalities. Extensive experiments and their results demonstrate the effectiveness of our approach as well as each proposed module in this work.

arxiv情報

著者 Ting Wang,Weidong Chen,Yuanhe Tian,Yan Song,Zhendong Mao
発行日 2023-11-14 15:01:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク