Integrity and Junkiness Failure Handling for Embedding-based Retrieval: A Case Study in Social Network Search

要約

タイトル:埋め込みベースの検索における完全性とジャンク性の失敗処理:ソーシャルネットワーク検索の事例研究

要約:
– 埋め込みベースの検索は、セマンティックマッチングやコンテキスト検索などのタスクで有効性を示しているが、無制御な関連性の問題に悩まされている。
– 本論文では、2021年初めに導入された埋め込みベースの検索について分析し、完全性とジャンク性の2つの失敗カテゴリーを定義する。
– 完全性は、ヘイトスピーチや攻撃的なコンテンツなどの問題を指し、ユーザーエクスペリエンスに深刻な影響を与える。ジャンク性は、ぼやけたテキストマッチングや言語の不一致などの関連性のない結果を含む。
– モデル推論中に効率的な方法が提案され、インデックス処理やターゲットユーザー層の処理などが含まれる。これらの方法は、単純であるが、実践では良好なオフラインNDCGとオンラインA/Bテストのメトリックスの利益を示す。
– 改善の理由を分析し、これらの方法はこの重要で課題のある問題に対する初期の試みであることを指摘し、今後の研究の可能性について提案する。

要約(オリジナル)

Embedding based retrieval has seen its usage in a variety of search applications like e-commerce, social networking search etc. While the approach has demonstrated its efficacy in tasks like semantic matching and contextual search, it is plagued by the problem of uncontrollable relevance. In this paper, we conduct an analysis of embedding-based retrieval launched in early 2021 on our social network search engine, and define two main categories of failures introduced by it, integrity and junkiness. The former refers to issues such as hate speech and offensive content that can severely harm user experience, while the latter includes irrelevant results like fuzzy text matching or language mismatches. Efficient methods during model inference are further proposed to resolve the issue, including indexing treatments and targeted user cohort treatments, etc. Though being simple, we show the methods have good offline NDCG and online A/B tests metrics gain in practice. We analyze the reasons for the improvements, pointing out that our methods are only preliminary attempts to this important but challenging problem. We put forward potential future directions to explore.

arxiv情報

著者 Wenping Wang,Yunxi Guo,Chiyao Shen,Shuai Ding,Guangdeng Liao,Hao Fu,Pramodh Karanth Prabhakar
発行日 2023-04-18 20:53:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.AI, cs.IR パーマリンク