Improving Pinterest Search Relevance Using Large Language Models

要約

Pinterest 検索での関連性スコアを向上させるために、ラージ言語モデル (LLM) を検索関連性モデルに統合し、慎重に設計されたテキスト表現を活用してピンの関連性を効果的に予測します。
私たちのアプローチでは、生成視覚言語モデルから抽出されたキャプションを含むコンテンツ表現とともに検索クエリを使用します。
これらは、リンクベースのテキスト データ、歴史的に高品質なエンゲージメント クエリ、ユーザーが厳選したボード、ピンのタイトルとピンの説明によってさらに強化され、検索の関連性を予測するための堅牢なモデルを作成します。
私たちは半教師あり学習アプローチを使用してトレーニング データの量を効率的にスケールアップし、高価な人間によるラベル付けされた利用可能なデータを超えて拡張します。
多言語 LLM を利用することで、初期データとアノテーターの専門知識が英語に限定されているにもかかわらず、システムはトレーニング データを拡張して、未知の言語とドメインを含めます。
さらに、LLM ベースのモデルから、リアルタイムで提供可能なモデルのアーキテクチャと機能を抽出します。
私たちは、提案した手法の包括的なオフライン実験検証を提供し、最終的に展開されたシステムを通じて大規模に達成される利益を実証します。

要約(オリジナル)

To improve relevance scoring on Pinterest Search, we integrate Large Language Models (LLMs) into our search relevance model, leveraging carefully designed text representations to predict the relevance of Pins effectively. Our approach uses search queries alongside content representations that include captions extracted from a generative visual language model. These are further enriched with link-based text data, historically high-quality engaged queries, user-curated boards, Pin titles and Pin descriptions, creating robust models for predicting search relevance. We use a semi-supervised learning approach to efficiently scale up the amount of training data, expanding beyond the expensive human labeled data available. By utilizing multilingual LLMs, our system extends training data to include unseen languages and domains, despite initial data and annotator expertise being confined to English. Furthermore, we distill from the LLM-based model into real-time servable model architectures and features. We provide comprehensive offline experimental validation for our proposed techniques and demonstrate the gains achieved through the final deployed system at scale.

arxiv情報

著者 Han Wang,Mukuntha Narayanan Sundararaman,Onur Gungor,Yu Xu,Krishna Kamath,Rakesh Chalasani,Kurchi Subhra Hazra,Jinfeng Rao
発行日 2024-10-22 16:29:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.IR パーマリンク