要約
オープンドメインの質問応答 (QA) タスクでは、通常、正確な回答を生成するために大規模なコーパスから関連情報を取得する必要があります。
我々は、まず与えられた質問に基づいてコンテキストドキュメントを生成するようモデルに指示することで、文書検索技術と大規模言語モデル (LLM) を組み合わせた、ジェネレーター・レトリーバー・ジェネレーター (GRG) と呼ばれる新しいアプローチを提案します。
並行して、デュアル エンコーダー ネットワークが外部コーパスから質問に関連する文書を取得します。
生成および取得されたドキュメントは 2 番目の LLM に渡され、最終的な回答が生成されます。
文書検索と LLM 生成を組み合わせることで、当社のアプローチは、有益で文脈に関連した回答を生成するなど、オープンドメイン QA の課題に対処します。
GRG は、最先端の生成してから読み取りおよび取得してから読み取るパイプライン (GENREAD および RFiD) を上回り、TriviaQA、NQ、および WebQ データセットでそれぞれ少なくとも +5.2、+4.2、および +1.6 パフォーマンスを向上させます。
コード、データセット、チェックポイントを提供します \footnote{\url{https://github.com/abdoelsayed2016/GRG}}
要約(オリジナル)
Open-domain question answering (QA) tasks usually require the retrieval of relevant information from a large corpus to generate accurate answers. We propose a novel approach called Generator-Retriever-Generator (GRG) that combines document retrieval techniques with a large language model (LLM), by first prompting the model to generate contextual documents based on a given question. In parallel, a dual-encoder network retrieves documents that are relevant to the question from an external corpus. The generated and retrieved documents are then passed to the second LLM, which generates the final answer. By combining document retrieval and LLM generation, our approach addresses the challenges of open-domain QA, such as generating informative and contextually relevant answers. GRG outperforms the state-of-the-art generate-then-read and retrieve-then-read pipelines (GENREAD and RFiD) improving their performance at least by +5.2, +4.2, and +1.6 on TriviaQA, NQ, and WebQ datasets, respectively. We provide code, datasets, and checkpoints \footnote{\url{https://github.com/abdoelsayed2016/GRG}}
arxiv情報
著者 | Abdelrahman Abdallah,Adam Jatowt |
発行日 | 2023-07-21 00:34:38+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google