Collaborative Group: Composed Image Retrieval via Consensus Learning from Noisy Annotations

要約

合成画像検索は、ユーザが参照画像とその意図を説明するキャプションを用いて検索できるようにすることで、コンテンツベースの画像検索システムを拡張する。識別可能な視覚言語的特徴を抽出するための画像-テキスト合成器の開発が大きく進展しているにもかかわらず、我々は、頑健な特徴抽出を阻害する、これまで見過ごされてきた問題、三つ組の曖昧性を特定する。三連符の曖昧性とは、参照画像、相対キャプション、ターゲット画像の間に生じる意味的曖昧性の一種である。これは主に、アノテーションテキストの表現が限定的であるため、複数の視覚的に非類似な候補画像が同一の参照ペア(すなわち、参照画像+相対キャプション)にマッチング可能な、ノイズの多いトリプレットが多数発生することに起因する。この課題に対処するため、我々は、集団が個人を凌駕するという心理学的概念にヒントを得たコンセンサス・ネットワーク(Css-Net)を提案する。Css-Netは2つのコア・コンポーネントから構成される:(1)コンセンサス・モジュールは4つの多様なコンポジターから構成され、それぞれが異なる画像-テキスト埋め込みを生成することで、補完的な特徴抽出を促進し、単一の偏った可能性のあるコンポジターへの依存を緩和する。評価中、4人のコンポジターの判断は重み付けスキームによって組み合わされ、全体的な合意を高める。ベンチマークデータセット、特にFashionIQにおいて、Css-Netは顕著な改善を示している。特に、R@10で2.77%、R@50で6.67%という大幅な想起率の向上を達成しており、既存の手法の根本的な限界に対処する上での競争力を強調している。

要約(オリジナル)

Composed image retrieval extends content-based image retrieval systems by enabling users to search using reference images and captions that describe their intention. Despite great progress in developing image-text compositors to extract discriminative visual-linguistic features, we identify a hitherto overlooked issue, triplet ambiguity, which impedes robust feature extraction. Triplet ambiguity refers to a type of semantic ambiguity that arises between the reference image, the relative caption, and the target image. It is mainly due to the limited representation of the annotated text, resulting in many noisy triplets where multiple visually dissimilar candidate images can be matched to an identical reference pair (i.e., a reference image + a relative caption). To address this challenge, we propose the Consensus Network (Css-Net), inspired by the psychological concept that groups outperform individuals. Css-Net comprises two core components: (1) a consensus module with four diverse compositors, each generating distinct image-text embeddings, fostering complementary feature extraction and mitigating dependence on any single, potentially biased compositor; (2) a Kullback-Leibler divergence loss that encourages learning of inter-compositor interactions to promote consensual outputs. During evaluation, the decisions of the four compositors are combined through a weighting scheme, enhancing overall agreement. On benchmark datasets, particularly FashionIQ, Css-Net demonstrates marked improvements. Notably, it achieves significant recall gains, with a 2.77% increase in R@10 and 6.67% boost in R@50, underscoring its competitiveness in addressing the fundamental limitations of existing methods.

arxiv情報

著者 Xu Zhang,Zhedong Zheng,Linchao Zhu,Yi Yang
発行日 2024-09-03 08:25:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク