Learning with Multi-modal Gradient Attention for Explainable Composed Image Retrieval

要約

画像とその画像に加えるべき変更を示す変更テキストからなる入力クエリを受け取り、これらの変更に一致する画像を検索する、合成画像検索の問題を考えます。
この問題に対処する現在の最先端の技術は、検索にグローバル特徴を使用します。その結果、特徴のグローバルな性質により、変更する対象領域の位置特定が不正確になります。現実世界の場合はなおさらです。
野生のイメージ。
修飾子テキストは通常​​、画像内の特定の局所的な変更に対応するため、モデルが局所的な特徴を学習して、局所化と取得の両方をより適切に行うことが重要です。
この目的を達成するために、私たちの重要な新しさは、各検索ステップで変更される局所的な関心領域にモデルが焦点を合わせるよう明示的に強制する、新しい勾配注意ベースの学習目標です。
これは、まず、修飾テキストに明示的に条件付けられるマルチモーダル勾配アテンション (MMGrad) と呼ばれる、新しい視覚画像アテンション計算手法を提案することで実現します。
次に、MMGrad アテンション マップに修飾子テキストに対応する正しい局所領域を明示的に強調表示する新しい学習目標を備えたエンドツーエンドのモデル トレーニング戦略に、MMGrad を組み込む方法を示します。
この新しい損失関数を使用して検索モデルをトレーニングすることにより、より優れた視覚的注意マップによってグラウンディングが向上し、モデルの説明可能性が向上し、標準ベンチマーク データセット上で競争力のある定量的検索パフォーマンスが得られることがわかります。

要約(オリジナル)

We consider the problem of composed image retrieval that takes an input query consisting of an image and a modification text indicating the desired changes to be made on the image and retrieves images that match these changes. Current state-of-the-art techniques that address this problem use global features for the retrieval, resulting in incorrect localization of the regions of interest to be modified because of the global nature of the features, more so in cases of real-world, in-the-wild images. Since modifier texts usually correspond to specific local changes in an image, it is critical that models learn local features to be able to both localize and retrieve better. To this end, our key novelty is a new gradient-attention-based learning objective that explicitly forces the model to focus on the local regions of interest being modified in each retrieval step. We achieve this by first proposing a new visual image attention computation technique, which we call multi-modal gradient attention (MMGrad) that is explicitly conditioned on the modifier text. We next demonstrate how MMGrad can be incorporated into an end-to-end model training strategy with a new learning objective that explicitly forces these MMGrad attention maps to highlight the correct local regions corresponding to the modifier text. By training retrieval models with this new loss function, we show improved grounding by means of better visual attention maps, leading to better explainability of the models as well as competitive quantitative retrieval performance on standard benchmark datasets.

arxiv情報

著者 Prateksha Udhayanan,Srikrishna Karanam,Balaji Vasan Srinivasan
発行日 2023-08-31 11:46:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク