要約
オープンドメインの会話型検索 (CS) システムにおけるクエリの理解と検索パフォーマンスを向上させるには、多様で効果的な明確な質問を生成することが重要です。
私たちは、手動キュレーションまたはテンプレートベースのアプローチに依存する既存の手法が直面するスケーラビリティと適応性の課題に対処する、エンドツーエンドの LLM ベースのフレームワークである AGENT-CQ (自動生成と明確化質問の評価) を提案します。
AGENT-CQ は 2 つのステージで構成されます。LLM プロンプト戦略を使用して明確な質問を生成する生成ステージと、複数の LLM インスタンスを使用して人間のクラウドソーシングの判断をシミュレートし、生成された質問と回答を包括的な品質指標に基づいて評価する評価ステージ (CrowdLLM) です。
ClariQ データセットに関する広範な実験により、質問と回答の品質を評価する際の CrowdLLM の有効性が実証されました。
人間による評価と CrowdLLM によると、AGENT-CQ の生成段階では、質問と回答の品質のさまざまな側面でベースラインを常に上回っています。
検索ベースの評価では、LLM が生成した質問は、人間が作成した質問と比較して、BM25 モデルとクロスエンコーダー モデルの両方の検索効率を大幅に高めます。
要約(オリジナル)
Generating diverse and effective clarifying questions is crucial for improving query understanding and retrieval performance in open-domain conversational search (CS) systems. We propose AGENT-CQ (Automatic GENeration, and evaluaTion of Clarifying Questions), an end-to-end LLM-based framework addressing the challenges of scalability and adaptability faced by existing methods that rely on manual curation or template-based approaches. AGENT-CQ consists of two stages: a generation stage employing LLM prompting strategies to generate clarifying questions, and an evaluation stage (CrowdLLM) that simulates human crowdsourcing judgments using multiple LLM instances to assess generated questions and answers based on comprehensive quality metrics. Extensive experiments on the ClariQ dataset demonstrate CrowdLLM’s effectiveness in evaluating question and answer quality. Human evaluation and CrowdLLM show that the AGENT-CQ – generation stage, consistently outperforms baselines in various aspects of question and answer quality. In retrieval-based evaluation, LLM-generated questions significantly enhance retrieval effectiveness for both BM25 and cross-encoder models compared to human-generated questions.
arxiv情報
著者 | Clemencia Siro,Yifei Yuan,Mohammad Aliannejadi,Maarten de Rijke |
発行日 | 2024-10-25 17:06:27+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google