要約
合成画像検索は、参照画像と補足テキストをクエリとして対象画像を検索するタスクであり、クロスモーダルモデリングの進歩により大幅な進歩を遂げています。
画像とテキストという位置関係が 1 つだけある一般的な画像とテキストの検索問題とは異なり、合成画像検索では 2 種類の関係が存在することを主張します。
明示的な関係は、参照画像と補完的なテキスト-ターゲット画像に関係しており、既存の方法で一般的に利用されています。
この直感的な関係に加えて、私たちの実践中の観察により、別の暗黙的かつ重要な関係、つまり、参照画像とターゲット画像と補足テキストの関係が明らかになりました。これは、ターゲット画像と参照画像の間の関係を研究することによって補完テキストを推測できることがわかったためです。
画像。
残念ながら、既存の方法は主に明示的な関係を利用してネットワークを学習することに重点を置いており、暗黙的な関係は無視されています。
この弱点に対応して、我々は二重関係アラインメントと呼ばれる、合成画像検索のための新しいフレームワークを提案します。これは、明示的関係と暗黙的関係の両方を統合して、トリプレット間の相関を完全に活用します。
具体的には、最初に参照画像とターゲット画像を融合するビジョンコンポジターを設計します。その後、結果として得られる表現が 2 つの役割を果たすことになります: (1) 補完テキストとの意味的整合のための対応物、および (2) 明示的な表現を強化するための補完テキストの補償
関係モデリングにより、暗黙的な関係がアライメント学習に埋め込まれます。
私たちの手法は、広範な実験を通じて、CIRR と FashionIQ という 2 つの人気のあるデータセットで評価されています。
この結果は、合成画像検索パフォーマンスを大幅に向上させる二重関係学習の有効性を裏付けています。
要約(オリジナル)
Composed image retrieval, a task involving the search for a target image using a reference image and a complementary text as the query, has witnessed significant advancements owing to the progress made in cross-modal modeling. Unlike the general image-text retrieval problem with only one alignment relation, i.e., image-text, we argue for the existence of two types of relations in composed image retrieval. The explicit relation pertains to the reference image & complementary text-target image, which is commonly exploited by existing methods. Besides this intuitive relation, the observations during our practice have uncovered another implicit yet crucial relation, i.e., reference image & target image-complementary text, since we found that the complementary text can be inferred by studying the relation between the target image and the reference image. Regrettably, existing methods largely focus on leveraging the explicit relation to learn their networks, while overlooking the implicit relation. In response to this weakness, We propose a new framework for composed image retrieval, termed dual relation alignment, which integrates both explicit and implicit relations to fully exploit the correlations among the triplets. Specifically, we design a vision compositor to fuse reference image and target image at first, then the resulted representation will serve two roles: (1) counterpart for semantic alignment with the complementary text and (2) compensation for the complementary text to boost the explicit relation modeling, thereby implant the implicit relation into the alignment learning. Our method is evaluated on two popular datasets, CIRR and FashionIQ, through extensive experiments. The results confirm the effectiveness of our dual-relation learning in substantially enhancing composed image retrieval performance.
arxiv情報
著者 | Xintong Jiang,Yaxiong Wang,Yujiao Wu,Meng Wang,Xueming Qian |
発行日 | 2024-01-31 06:18:14+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google