要約
テキスト データに基づくセマンティック検索 (高密度検索とも呼ばれる) は、Web 検索と製品検索の両方のアプリケーション分野で広く研究されており、クエリと潜在的なターゲット ドキュメントの関連性がそれらの高密度ベクトル表現の比較によって計算されます。
製品画像は、電子商取引の検索インタラクションにとって非常に重要であり、顧客が製品を検討する際の重要な要素です。
しかし、意味検索に対するその影響はまだ十分に研究されていません。
この研究では、製品の純粋なテキスト表現とは対照的に、電子商取引検索における製品アイテムのマルチモーダル表現を構築し、そのような表現の影響を調査します。
モデルは、電子商取引データセット上で開発および評価されます。
製品のマルチモーダル表現スキームにより、購入想起または意味検索における関連性の精度のいずれかが向上することを実証します。
さらに、マルチモーダル セマンティック検索モデルとテキストのみのセマンティック検索モデルによって取得された排他的一致の数値分析を提供し、マルチモーダル ソリューションの検証を示します。
要約(オリジナル)
Semantic retrieval (also known as dense retrieval) based on textual data has been extensively studied for both web search and product search application fields, where the relevance of a query and a potential target document is computed by their dense vector representation comparison. Product image is crucial for e-commence search interactions and is a key factor for customers at product explorations. But its impact for semantic retrieval has not been well studied yet. In this research, we build a multimodal representation for product items in e-commerece search in contrast to pure-text representation of products, and investigate the impact of such representations. The models are developed and evaluated on e-commerce datasets. We demonstrate that a multimodal representation scheme for a product can show improvement either on purchase recall or relevance accuracy in semantic retrieval. Additionally, we provide numerical analysis for exclusive matches retrieved by a multimodal semantic retrieval model versus a text-only semantic retrieval model, to demonstrate the validation of multimodal solutions.
arxiv情報
著者 | Dong Liu,Esther Lopez Ramos |
発行日 | 2025-01-13 14:34:26+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google