Towards Better Query Classification with Multi-Expert Knowledge Condensation in JD Ads Search

要約

検索クエリの分類は、ユーザーの意図を理解する効果的な方法として、現実世界のオンライン広告システムにおいて非常に重要です。
レイテンシを確実に低くするために、効率的なオンライン推論には浅いモデル (FastText など) が広く使用されています。
ただし、FastText モデルの表現能力は不十分であり、特に一部の低頻度クエリや尾部カテゴリでは、分類パフォーマンスが低下します。
より深く、より複雑なモデル (BERT など) を使用することは効果的な解決策ですが、オンライン推論のレイテンシが長くなり、コンピューティング コストがより高価になります。
したがって、推論効率と分類パフォーマンスの両方をどのように調整するかが、明らかに実用上非常に重要です。
この課題を克服するために、この論文では、厳格な低遅延制約の下でオンライン FastText モデルの分類パフォーマンスを向上させる、シンプルで効果的な知識蒸留フレームワークである知識凝縮 (KC) を提案します。
具体的には、オフライン BERT モデルをトレーニングして、より関連性の高いデータを取得することを提案します。
その強力なセマンティック表現の利点を活用して、履歴データでは公開されていないより関連性の高いラベルがトレーニング セットに追加され、FastText モデルのトレーニングが向上します。
さらに、関連データのマイニング能力をさらに向上させるために、新しい分布多様なマルチエキスパート学習戦略が提案されています。
異なるデータ分布から複数の BERT モデルをトレーニングすることにより、高頻度、中頻度、低頻度の検索クエリでそれぞれパフォーマンスを向上させることができます。
複数の分布からのモデルアンサンブルにより、検索能力がさらに強力になります。
このフレームワークの 2 つのバージョンを JD 検索にデプロイし、複数のデータセットからのオフライン実験とオンライン A/B テストの両方で、提案されたアプローチの有効性を検証しました。

要約(オリジナル)

Search query classification, as an effective way to understand user intents, is of great importance in real-world online ads systems. To ensure a lower latency, a shallow model (e.g. FastText) is widely used for efficient online inference. However, the representation ability of the FastText model is insufficient, resulting in poor classification performance, especially on some low-frequency queries and tailed categories. Using a deeper and more complex model (e.g. BERT) is an effective solution, but it will cause a higher online inference latency and more expensive computing costs. Thus, how to juggle both inference efficiency and classification performance is obviously of great practical importance. To overcome this challenge, in this paper, we propose knowledge condensation (KC), a simple yet effective knowledge distillation framework to boost the classification performance of the online FastText model under strict low latency constraints. Specifically, we propose to train an offline BERT model to retrieve more potentially relevant data. Benefiting from its powerful semantic representation, more relevant labels not exposed in the historical data will be added into the training set for better FastText model training. Moreover, a novel distribution-diverse multi-expert learning strategy is proposed to further improve the mining ability of relevant data. By training multiple BERT models from different data distributions, it can respectively perform better at high, middle, and low-frequency search queries. The model ensemble from multi-distribution makes its retrieval ability more powerful. We have deployed two versions of this framework in JD search, and both offline experiments and online A/B testing from multiple datasets have validated the effectiveness of the proposed approach.

arxiv情報

著者 Kun-Peng Ning,Ming Pang,Zheng Fang,Xue Jiang,Xi-Wei Zhao,Chang-Ping Peng,Zhan-Gang Lin,Jing-He Hu,Jing-Ping Shao
発行日 2023-11-08 14:02:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.IR パーマリンク