ConvSDG: Session Data Generation for Conversational Search

要約

会話型検索は、検索エンジンとの複数回の対話を可能にすることで、ユーザーが検索するためのより便利なインターフェイスを提供します。
ただし、会話型の高密度検索手法の有効性は、微調整に必要なトレーニング データが不足しているため制限されます。
したがって、関連するラベルを使用してより多くのトレーニング会話セッションを生成すると、検索パフォーマンスが向上する可能性があります。
テキスト生成に関する大規模言語モデル (LLM) の有望な機能に基づいて、セッション データ生成に LLM を使用することで会話型検索を強化する実現可能性を探るための、シンプルかつ効果的なフレームワークである ConvSDG を提案します。
このフレームワーク内で、関連性の判断の利用可能性に応じて、教師なし学習および半教師あり学習を使用した対話/セッションレベルおよびクエリレベルのデータ生成を設計します。
生成されたデータは、会話型デンス リトリーバーを微調整するために使用されます。
広く使用されている 4 つのデータセットに対する広範な実験により、いくつかの強力なベースラインと比較した ConvSDG フレームワークの有効性と幅広い適用性が実証されました。

要約(オリジナル)

Conversational search provides a more convenient interface for users to search by allowing multi-turn interaction with the search engine. However, the effectiveness of the conversational dense retrieval methods is limited by the scarcity of training data required for their fine-tuning. Thus, generating more training conversational sessions with relevant labels could potentially improve search performance. Based on the promising capabilities of large language models (LLMs) on text generation, we propose ConvSDG, a simple yet effective framework to explore the feasibility of boosting conversational search by using LLM for session data generation. Within this framework, we design dialogue/session-level and query-level data generation with unsupervised and semi-supervised learning, according to the availability of relevance judgments. The generated data are used to fine-tune the conversational dense retriever. Extensive experiments on four widely used datasets demonstrate the effectiveness and broad applicability of our ConvSDG framework compared with several strong baselines.

arxiv情報

著者 Fengran Mo,Bole Yi,Kelong Mao,Chen Qu,Kaiyu Huang,Jian-Yun Nie
発行日 2024-03-17 20:34:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.IR パーマリンク