要約
チェンジキャプションとは、類似した画像のペア間の意味的な変化を自然言語で記述することである。一般的な画像キャプションに比べ、無関係な視点変更に左右されずにきめ細かな変化情報を捉える必要があり、変化記述の構文の曖昧さを解決する必要があるため、難易度は高い。本論文では、異なるシーン下での様々な変化に対するモデルの知覚能力と、複雑な構文構造に対する認知能力を向上させるために、近傍対比変換器を提案する。具体的には、まず、近傍文脈を各特徴に統合する近傍特徴集約を設計し、目立つ参照語の誘導の下で、目立たない変化を素早く見つけることができるようにする。次に、2つの画像を近傍レベルで比較し、それぞれの画像から共通の特性を抽出する共通特徴抽出を考案し、2つの画像間の効果的なコントラスト情報を学習することができます。最後に、単語間の明示的な依存関係を導入し、変換デコーダを校正することで、学習中に複雑な構文構造をよりよく理解できるようにする。広範な実験結果により、提案手法は、異なる変化シナリオを持つ3つの公共データセットにおいて、最先端の性能を達成することが実証された。コードは https://github.com/tuyunbin/NCT で公開されています。
要約(オリジナル)
Change captioning is to describe the semantic change between a pair of similar images in natural language. It is more challenging than general image captioning, because it requires capturing fine-grained change information while being immune to irrelevant viewpoint changes, and solving syntax ambiguity in change descriptions. In this paper, we propose a neighborhood contrastive transformer to improve the model’s perceiving ability for various changes under different scenes and cognition ability for complex syntax structure. Concretely, we first design a neighboring feature aggregating to integrate neighboring context into each feature, which helps quickly locate the inconspicuous changes under the guidance of conspicuous referents. Then, we devise a common feature distilling to compare two images at neighborhood level and extract common properties from each image, so as to learn effective contrastive information between them. Finally, we introduce the explicit dependencies between words to calibrate the transformer decoder, which helps better understand complex syntax structure during training. Extensive experimental results demonstrate that the proposed method achieves the state-of-the-art performance on three public datasets with different change scenarios. The code is available at https://github.com/tuyunbin/NCT.
arxiv情報
著者 | Yunbin Tu,Liang Li,Li Su,Ke Lu,Qingming Huang |
発行日 | 2023-03-06 14:39:54+00:00 |
arxivサイト | arxiv_id(pdf) |