Harnessing Multi-Role Capabilities of Large Language Models for Open-Domain Question Answering

要約

オープンドメイン質問応答 (ODQA) は、情報システムにおける極めて重要な研究のスポットライトとして浮上しています。
既存の方法は、証拠を収集するために 2 つの主要なパラダイムに従います。 (1) \textit{retrieve-then-read} パラダイムは、外部コーパスから関連文書を取得します。
(2) \textit{generate-then-read} パラダイムは、大規模言語モデル (LLM) を使用して関連ドキュメントを生成します。
しかし、どちらも証拠に対する多面的な要件に完全に対応することはできません。
この目的を達成するために、我々は、ODQA プロセスを 3 つの基本ステップ (クエリ拡張、文書選択、および回答生成) に定式化し、検索ベースの証拠と生成ベースの証拠の両方の優位性を組み合わせた一般化されたフレームワークである LLMQA を提案します。
LLM はさまざまなタスクを実行する優れた能力を発揮するため、LLM がフレームワーク内でジェネレーター、リランカー、評価者として複数の役割を果たすよう指示し、ODQA プロセスで連携するように統合します。
さらに、ロールプレイングのプロンプトを改良し、より高品質の証拠と回答を生成するように LLM を誘導するための新しいプロンプト最適化アルゴリズムを導入します。
広く使用されているベンチマーク (NQ、WebQ、および TriviaQA) に関する広範な実験結果は、LLMQA が回答精度​​と証拠の品質の両方の点で最高のパフォーマンスを達成することを実証し、ODQA の研究と応用を前進させる可能性を示しています。

要約(オリジナル)

Open-domain question answering (ODQA) has emerged as a pivotal research spotlight in information systems. Existing methods follow two main paradigms to collect evidence: (1) The \textit{retrieve-then-read} paradigm retrieves pertinent documents from an external corpus; and (2) the \textit{generate-then-read} paradigm employs large language models (LLMs) to generate relevant documents. However, neither can fully address multifaceted requirements for evidence. To this end, we propose LLMQA, a generalized framework that formulates the ODQA process into three basic steps: query expansion, document selection, and answer generation, combining the superiority of both retrieval-based and generation-based evidence. Since LLMs exhibit their excellent capabilities to accomplish various tasks, we instruct LLMs to play multiple roles as generators, rerankers, and evaluators within our framework, integrating them to collaborate in the ODQA process. Furthermore, we introduce a novel prompt optimization algorithm to refine role-playing prompts and steer LLMs to produce higher-quality evidence and answers. Extensive experimental results on widely used benchmarks (NQ, WebQ, and TriviaQA) demonstrate that LLMQA achieves the best performance in terms of both answer accuracy and evidence quality, showcasing its potential for advancing ODQA research and applications.

arxiv情報

著者 Hongda Sun,Yuxuan Liu,Chengwei Wu,Haiyu Yan,Cheng Tai,Xin Gao,Shuo Shang,Rui Yan
発行日 2024-03-08 11:09:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.IR パーマリンク