要約
会話型検索は、検索エンジンとの複数回の対話を可能にすることで、ユーザーが検索するためのより便利なインターフェイスを提供します。
ただし、会話型の高密度検索手法の有効性は、微調整に必要なトレーニング データが不足しているため制限されます。
したがって、関連するラベルを使用してより多くのトレーニング会話セッションを生成すると、検索パフォーマンスが向上する可能性があります。
テキスト生成に関する大規模言語モデル (LLM) の有望な機能に基づいて、セッション データ生成に LLM を使用することで会話型検索を強化する実現可能性を探るための、シンプルかつ効果的なフレームワークである ConvSDG を提案します。
このフレームワーク内で、関連性の判断の利用可能性に応じて、教師なし学習および半教師あり学習を使用した対話/セッションレベルおよびクエリレベルのデータ生成を設計します。
生成されたデータは、会話型デンス リトリーバーを微調整するために使用されます。
広く使用されている 4 つのデータセットに対する広範な実験により、いくつかの強力なベースラインと比較した ConvSDG フレームワークの有効性と幅広い適用性が実証されました。
要約(オリジナル)
Conversational search provides a more convenient interface for users to search by allowing multi-turn interaction with the search engine. However, the effectiveness of the conversational dense retrieval methods is limited by the scarcity of training data required for their fine-tuning. Thus, generating more training conversational sessions with relevant labels could potentially improve search performance. Based on the promising capabilities of large language models (LLMs) on text generation, we propose ConvSDG, a simple yet effective framework to explore the feasibility of boosting conversational search by using LLM for session data generation. Within this framework, we design dialogue/session-level and query-level data generation with unsupervised and semi-supervised learning, according to the availability of relevance judgments. The generated data are used to fine-tune the conversational dense retriever. Extensive experiments on four widely used datasets demonstrate the effectiveness and broad applicability of our ConvSDG framework compared with several strong baselines.
arxiv情報
著者 | Fengran Mo,Bole Yi,Kelong Mao,Chen Qu,Kaiyu Huang,Jian-Yun Nie |
発行日 | 2024-03-17 20:34:40+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google