Deep Bag-of-Words Model: An Efficient and Interpretable Relevance Architecture for Chinese E-Commerce

要約

クエリと製品のテキスト関連性またはテキスト マッチングは、表示される製品がクエリの意図と一致することを確認するために、電子商取引検索システムにとって不可欠な技術です。
多くの研究は、検索システムにおける関連性モデルのパフォーマンスの向上に焦点を当てています。
最近では、BERT のような事前トレーニング済み言語モデルが、テキスト関連性タスクで有望なパフォーマンスを達成しています。
これらのモデルはオフライン テスト データセットでは良好に機能しますが、遅延が大きいため、事前トレーニングされた言語モデルをオンライン システムにデプロイするには依然として障害があります。
2 タワー モデルは、パフォーマンスと計算効率を調和させる能力があるため、産業シナリオで広く採用されています。
残念なことに、そのようなモデルは不透明な「ブラック ボックス」の性質を示しており、開発者が特別な最適化を行うことができません。
この論文では、中国の電子商取引のための効率的で解釈可能な関連性アーキテクチャであるディープ Bag-of-Words (DeepBoW) モデルを取り上げます。
私たちのアプローチは、クエリと積を単語と重みのペアのセットであるスパース BoW 表現にエンコードすることを提案します。
重みは、対応する単語と生のテキストの間の重要または関連性のあるスコアを意味します。
関連性スコアは、クエリのスパース BoW 表現と製品の間で一致した単語の累積によって測定されます。
通常ブラックボックスの欠点に悩まされる一般的な高密度分散表現と比較して、提案された表現モデルの最大の利点は、説明可能性と介入可能性が高く、オンライン検索エンジンの展開と運用にとって優れた利点です。
さらに、提案されたモデルのオンライン効率は、最も効率的な密表現の内積形式よりもさらに優れています。

要約(オリジナル)

Text relevance or text matching of query and product is an essential technique for the e-commerce search system to ensure that the displayed products can match the intent of the query. Many studies focus on improving the performance of the relevance model in search system. Recently, pre-trained language models like BERT have achieved promising performance on the text relevance task. While these models perform well on the offline test dataset, there are still obstacles to deploy the pre-trained language model to the online system as their high latency. The two-tower model is extensively employed in industrial scenarios, owing to its ability to harmonize performance with computational efficiency. Regrettably, such models present an opaque “black box” nature, which prevents developers from making special optimizations. In this paper, we raise deep Bag-of-Words (DeepBoW) model, an efficient and interpretable relevance architecture for Chinese e-commerce. Our approach proposes to encode the query and the product into the sparse BoW representation, which is a set of word-weight pairs. The weight means the important or the relevant score between the corresponding word and the raw text. The relevance score is measured by the accumulation of the matched word between the sparse BoW representation of the query and the product. Compared to popular dense distributed representation that usually suffers from the drawback of black-box, the most advantage of the proposed representation model is highly explainable and interventionable, which is a superior advantage to the deployment and operation of online search engines. Moreover, the online efficiency of the proposed model is even better than the most efficient inner product form of dense representation …

arxiv情報

著者 Zhe Lin,Jiwei Tan,Dan Ou,Xi Chen,Shaowei Yao,Bo Zheng
発行日 2024-07-12 16:18:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.IR パーマリンク