要約
マルチチェンジキャプションは、画像ペア内の複雑で結合した変化を自然言語で説明することを目的としています。
単一変更のキャプションと比較して、このタスクでは、任意の数の変更を推論するためのより高いレベルの認識能力がモデルに必要です。
この論文では、文を生成するためのすべての真の変更を捕捉するための新しいコンテキスト認識差分蒸留 (CARD) ネットワークを提案します。
画像ペアが与えられると、CARD はまず、共通/相違コンテキスト特徴と呼ばれる、すべての類似/非類似セマンティクスを集約するコンテキスト特徴を分離します。
次に、共通/相違コンテキスト特徴の整合/不一致を保証するように、一貫性と独立性の制約が設計されます。
さらに、共通コンテキスト特徴は、局所的に変化していない特徴をマイニングするようにモデルを導き、局所的に異なる特徴を抽出するためにペアから差し引かれます。
次に、差分コンテキスト特徴がローカル差分特徴を拡張して、すべての変更が抽出されることを保証します。
このようにして、すべての変更のオムニ表現を取得し、これをトランスフォーマー デコーダーによって言語文に翻訳します。
3 つの公開データセットに対する広範な実験により、CARD が最先端の手法に対して有利に機能することが示されました。コードは https://github.com/tuyunbin/CARD で入手できます。
要約(オリジナル)
Multi-change captioning aims to describe complex and coupled changes within an image pair in natural language. Compared with single-change captioning, this task requires the model to have higher-level cognition ability to reason an arbitrary number of changes. In this paper, we propose a novel context-aware difference distilling (CARD) network to capture all genuine changes for yielding sentences. Given an image pair, CARD first decouples context features that aggregate all similar/dissimilar semantics, termed common/difference context features. Then, the consistency and independence constraints are designed to guarantee the alignment/discrepancy of common/difference context features. Further, the common context features guide the model to mine locally unchanged features, which are subtracted from the pair to distill locally difference features. Next, the difference context features augment the locally difference features to ensure that all changes are distilled. In this way, we obtain an omni-representation of all changes, which is translated into linguistic sentences by a transformer decoder. Extensive experiments on three public datasets show CARD performs favourably against state-of-the-art methods.The code is available at https://github.com/tuyunbin/CARD.
arxiv情報
著者 | Yunbin Tu,Liang Li,Li Su,Zheng-Jun Zha,Chenggang Yan,Qingming Huang |
発行日 | 2024-05-31 14:07:39+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google