要約
電子商取引の検索では、クエリとドキュメントの関連性は、ユーザー エクスペリエンスを満足させるための必須の要件です。
製品を提供する従来の電子商取引プラットフォームとは異なり、ユーザーは美団などの生活サービス プラットフォームで主に製品プロバイダーを検索します。通常、豊富な構造化情報が含まれています。
名前、住所、カテゴリ、何千もの製品。
これらの豊富な構造化コンテンツとの検索関連性のモデリングは、次の問題により困難です。 (1) 構造化ドキュメントのさまざまな分野間で言語分布の不一致があり、BERT のような既製の事前トレーニング済み言語モデル ベースの手法を直接採用することが困難になります。
(2) 通常、フィールドが異なれば重要性も異なり、フィールドの長さも大きく異なるため、関連性の照合に役立つ文書情報を抽出することが困難になります。
これらの問題に取り組むために、この論文では、豊富な構造化ドキュメントとの関連性マッチングのための新しい 2 段階の事前トレーニングおよびマッチング アーキテクチャを提案します。
事前トレーニング段階では、長いフィールドに対する効果的な情報圧縮方法を含め、クエリとドキュメントの複数フィールドの両方を入力として使用する効果的な事前トレーニング方法を提案します。
関連性マッチングの段階では、検索クエリ内のドメイン知識を活用して、関連性スコアリングのためのより効果的な文書表現を生成する新しいマッチング方法が提案されます。
何百万人ものユーザーを対象とした広範なオフライン実験とオンライン A/B テストにより、提案されたアーキテクチャが関連性モデリングのパフォーマンスを効果的に向上させることが検証されています。
このモデルはすでにオンラインで展開されており、1 年以上にわたり Meituan の検索トラフィックにサービスを提供しています。
要約(オリジナル)
In e-commerce search, relevance between query and documents is an essential requirement for satisfying user experience. Different from traditional e-commerce platforms that offer products, users search on life service platforms such as Meituan mainly for product providers, which usually have abundant structured information, e.g. name, address, category, thousands of products. Modeling search relevance with these rich structured contents is challenging due to the following issues: (1) there is language distribution discrepancy among different fields of structured document, making it difficult to directly adopt off-the-shelf pretrained language model based methods like BERT. (2) different fields usually have different importance and their length vary greatly, making it difficult to extract document information helpful for relevance matching. To tackle these issues, in this paper we propose a novel two-stage pretraining and matching architecture for relevance matching with rich structured documents. At pretraining stage, we propose an effective pretraining method that employs both query and multiple fields of document as inputs, including an effective information compression method for lengthy fields. At relevance matching stage, a novel matching method is proposed by leveraging domain knowledge in search query to generate more effective document representations for relevance scoring. Extensive offline experiments and online A/B tests on millions of users verify that the proposed architectures effectively improve the performance of relevance modeling. The model has already been deployed online, serving the search traffic of Meituan for over a year.
arxiv情報
著者 | Wen Zan,Yaopeng Han,Xiaotian Jiang,Yao Xiao,Yang Yang,Dayao Chen,Sheng Chen |
発行日 | 2023-08-15 11:45:34+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google