Entity-Graph Enhanced Cross-Modal Pretraining for Instance-level Product Retrieval

要約

この研究の目標は、細粒度の製品カテゴリに対して、弱教師ありマルチモーダルインスタンスレベルの製品検索を実行できる、より現実的な環境を研究することです。
最初にProduct1Mデータセットを提供し、2つの実際のインスタンスレベルの取得タスクを定義して、価格比較とパーソナライズされた推奨事項の評価を可能にします。
どちらのインスタンスレベルのタスクでも、視覚言語データに記載されている製品ターゲットを正確に特定し、無関係なコンテンツの影響を効果的に減らす方法は非常に困難です。
これに対処するために、ノードとエッジがそれぞれエンティティと
エンティティ。
具体的には、ノードベースとサブグラフベースの両方の方法でエンティティの知識をマルチモーダルネットワークに明示的に注入する、インスタンスレベルの商品検索用の新しいエンティティグラフ拡張クロスモーダル事前トレーニング(EGE-CMP)モデルが提案されています。
自己監視型ハイブリッドストリームトランスフォーマー。これにより、異なるオブジェクトコンテンツ間の混乱を減らし、ネットワークを効果的にガイドして、実際のセマンティックを持つエンティティに焦点を合わせることができます。
実験結果は、EGE-CMPの有効性と一般化可能性を十分に検証しており、CLIP、UNITER、CAPTUREなどのいくつかのSOTAクロスモーダルベースラインを上回っています。

要約(オリジナル)

Our goal in this research is to study a more realistic environment in which we can conduct weakly-supervised multi-modal instance-level product retrieval for fine-grained product categories. We first contribute the Product1M datasets, and define two real practical instance-level retrieval tasks to enable the evaluations on the price comparison and personalized recommendations. For both instance-level tasks, how to accurately pinpoint the product target mentioned in the visual-linguistic data and effectively decrease the influence of irrelevant contents is quite challenging. To address this, we exploit to train a more effective cross-modal pertaining model which is adaptively capable of incorporating key concept information from the multi-modal data, by using an entity graph whose node and edge respectively denote the entity and the similarity relation between entities. Specifically, a novel Entity-Graph Enhanced Cross-Modal Pretraining (EGE-CMP) model is proposed for instance-level commodity retrieval, that explicitly injects entity knowledge in both node-based and subgraph-based ways into the multi-modal networks via a self-supervised hybrid-stream transformer, which could reduce the confusion between different object contents, thereby effectively guiding the network to focus on entities with real semantic. Experimental results well verify the efficacy and generalizability of our EGE-CMP, outperforming several SOTA cross-modal baselines like CLIP, UNITER and CAPTURE.

arxiv情報

著者 Xiao Dong,Xunlin Zhan,Yunchao Wei,Xiaoyong Wei,Yaowei Wang,Minlong Lu,Xiaochun Cao,Xiaodan Liang
発行日 2022-06-17 15:40:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.DB, cs.IR, cs.MM パーマリンク