DATE: Domain Adaptive Product Seeker for E-commerce


タイトル: DATE: Eコマースのためのドメイン適応型製品検索アルゴリズム

– テキストクエリに基づいて画像とオブジェクトレベルの製品を検索するための「Product Retrieval (PR)」と「Grounding (PG)」が近年興味を集めており、より良いショッピング体験を目指しています。
– しかし、これに関連するデータセットの不足から、Taobao MallとLive domainsから2つの大規模なベンチマークデータセットを収集し、PRのために約474kの画像-クエリペア、PGのために各画像のオブジェクトバウンディングボックスを手動で注釈をつけました。
– PGのための注釈はコストと時間がかかるため、PG-DA(非監視型ドメイン適応)のための注釈済みドメインから知識を転送しようとしました。
– 「Product Seeking problem」としてPRとPGを異なるレベルで扱い、クエリの日付と製品を関連付ける「D」omain 「A」daptive Produc「t」 S「e」eker(「DATE」)フレームワークを提案します。
– 具体的には、各モダリティに対して意味的に集約された特徴量を抽出するように設計した特徴量エクストラクタを最初に設計して、クエリによる効率的な検索や細かいグラウンディングタスクのために包括的な特徴量を得ます。
– そして、PRのための画像を同時に検索し、PGのための製品をローカライズする2つの相互協力型の求職者を提供します。
– さらに、PG-DAのドメインアライナーを設計して、ソースとターゲットドメイン間の単一のモーダルマージナルおよび多モーダル条件付き分布シフトを軽減し、信頼できるインスタンスを動的に選択し、境界ボックスを生成するための疑似ボックスジェネレータを設計します。
– 広範な実験により、DATEが完全監視のPR、PG、PG-DAで満足な性能を発揮することがわかりました。また、GitHubにデータセットが公開されています。


Product Retrieval (PR) and Grounding (PG), aiming to seek image and object-level products respectively according to a textual query, have attracted great interest recently for better shopping experience. Owing to the lack of relevant datasets, we collect two large-scale benchmark datasets from Taobao Mall and Live domains with about 474k and 101k image-query pairs for PR, and manually annotate the object bounding boxes in each image for PG. As annotating boxes is expensive and time-consuming, we attempt to transfer knowledge from annotated domain to unannotated for PG to achieve un-supervised Domain Adaptation (PG-DA). We propose a {\bf D}omain {\bf A}daptive Produc{\bf t} S{\bf e}eker ({\bf DATE}) framework, regarding PR and PG as Product Seeking problem at different levels, to assist the query {\bf date} the product. Concretely, we first design a semantics-aggregated feature extractor for each modality to obtain concentrated and comprehensive features for following efficient retrieval and fine-grained grounding tasks. Then, we present two cooperative seekers to simultaneously search the image for PR and localize the product for PG. Besides, we devise a domain aligner for PG-DA to alleviate uni-modal marginal and multi-modal conditional distribution shift between source and target domains, and design a pseudo box generator to dynamically select reliable instances and generate bounding boxes for further knowledge transfer. Extensive experiments show that our DATE achieves satisfactory performance in fully-supervised PR, PG and un-supervised PG-DA. Our desensitized datasets will be publicly available here\footnote{\url{}}.


著者 Haoyuan Li,Hao Jiang,Tao Jin,Mengyan Li,Yan Chen,Zhijie Lin,Yang Zhao,Zhou Zhao
発行日 2023-04-07 14:40:16+00:00
arxivサイト arxiv_id(pdf)

カテゴリー: cs.CV パーマリンク