Aug2Search: Enhancing Facebook Marketplace Search with LLM-Generated Synthetic Data Augmentation

要約

埋め込みベースの検索(EBR)は、最新の検索エンジンで重要な手法であり、検索クエリと関連する結果の間のセマンティックマッチを可能にします。
ただし、Facebook Marketplaceなどのプラットフォームでの検索ログデータには、効果的なEBRモデルトレーニングに必要な多様性と詳細が欠けており、微妙な検索パターンをキャプチャするモデルの能力が制限されています。
この課題に対処するために、クエリ製品の関連性を最適化するためのマルチモーダルおよびマルチタスクのアプローチで、生成AI(Genai)モデルによって生成された合成データを活用するEBRベースのフレームワークであるAug2Searchを提案します。
このペーパーでは、高品質の合成データを生成し、EBRモデルの強化への影響を分析する際に、Genai、特に大規模な言語モデル(LLM)の能力を調査します。
Facebook Marketplaceログから8つのLlamaモデルと1億個のデータポイントを使用して実験を行いました。
合成データ生成は、次の3つの戦略に従います。(1)クエリを生成し、(2)製品リストを強化し、(3)拡張リストからクエリを生成します。
EBRモデルは、サンプリングされたエンゲージメントデータまたは元のデータ(例:「クリック」および「リストインタラクション」」)、合成データ、およびさまざまなトレーニングセットでパフォーマンスを評価するためのエンゲージメントデータと合成データの両方の混合物の3つの異なるデータセットでトレーニングします。
私たちの調査結果は、低レベルの幻覚を維持しながら、高い一貫性、関連性、多様性を備えた合成クエリとリストを作成する際のラマモデルの堅牢性を強調しています。
Aug2Searchは、1億個の合成データサンプルを使用してROC_AUCで最大4%の改善を達成し、アプローチの有効性を実証しています。
さらに、我々の実験は、同じ量のトレーニングデータを使用して、合成データのみで訓練されたモデルが、元のデータのみでトレーニングされたものや元の合成データと合成データの混合物を上回ることが多いことを明らかにしています。

要約(オリジナル)

Embedding-Based Retrieval (EBR) is an important technique in modern search engines, enabling semantic match between search queries and relevant results. However, search logging data on platforms like Facebook Marketplace lacks the diversity and details needed for effective EBR model training, limiting the models’ ability to capture nuanced search patterns. To address this challenge, we propose Aug2Search, an EBR-based framework leveraging synthetic data generated by Generative AI (GenAI) models, in a multimodal and multitask approach to optimize query-product relevance. This paper investigates the capabilities of GenAI, particularly Large Language Models (LLMs), in generating high-quality synthetic data, and analyzing its impact on enhancing EBR models. We conducted experiments using eight Llama models and 100 million data points from Facebook Marketplace logs. Our synthetic data generation follows three strategies: (1) generate queries, (2) enhance product listings, and (3) generate queries from enhanced listings. We train EBR models on three different datasets: sampled engagement data or original data ((e.g., ‘Click’ and ‘Listing Interactions’)), synthetic data, and a mixture of both engagement and synthetic data to assess their performance across various training sets. Our findings underscore the robustness of Llama models in producing synthetic queries and listings with high coherence, relevance, and diversity, while maintaining low levels of hallucination. Aug2Search achieves an improvement of up to 4% in ROC_AUC with 100 million synthetic data samples, demonstrating the effectiveness of our approach. Moreover, our experiments reveal that with the same volume of training data, models trained exclusively on synthetic data often outperform those trained on original data only or a mixture of original and synthetic data.

arxiv情報

著者 Ruijie Xi,He Ba,Hao Yuan,Rishu Agrawal,Yuxin Tian,Ruoyan Long,Arul Prakash
発行日 2025-06-18 17:04:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.IR パーマリンク