GripRank: Bridging the Gap between Retrieval and Generation via the Generative Knowledge Improved Passage Ranking

要約

検索強化型テキスト生成は、入力クエリに対して適切な回答を提供するために大規模な文章コーパスから検索された文章を活用することにより、オープンドメインの質問応答や知識強化型対話生成などの知識集約型言語タスクで目覚ましい進歩を示しています。
ただし、検索されたパッセージは、検索と生成の間に矛盾があるため、回答生成のガイドとしては理想的ではありません。つまり、適切な回答を生成する可能性を考慮せずに、検索手順中に候補パッセージがすべて同等に扱われます。
この不一致により、パッセージ検索プログラムは、回答を生成するために次善の候補パッセージのコレクションを提供することになります。
この論文では、生成パッセージ推定器 (GPE) からパッセージ ランカーに知識を抽出することによって上記の課題に対処する、GeneRative Knowledge Enhanced Passage Ranker (GripRank) アプローチを提案します。GPE は、確率を測定するために使用される生成言語モデルです。
候補となるパッセージから適切な答えを生成できます。
蒸留手順は、GPE によって順序付けられたパッセージをランク付けする学習をパッセージ ランカーに教えることによって実現します。
さらに、カリキュラム知識の抽出メカニズムを考案することで抽出の品質を向上させます。これにより、GPE によって提供される知識が、簡単から難しいカリキュラムを通じてランカーに段階的に抽出され、パッセージランカーがその出所を正しく認識できるようになります。
多くの有力な候補者からの回答。
私たちは、3 つの知識集約型言語タスクにわたる 4 つのデータセットに対して広範な実験を実施しました。
実験結果は、KILT ベンチマークでのパッセージのランキングと回答生成の両方において、最先端の方法よりも優れていることを示しています。

要約(オリジナル)

Retrieval-enhanced text generation has shown remarkable progress on knowledge-intensive language tasks, such as open-domain question answering and knowledge-enhanced dialogue generation, by leveraging passages retrieved from a large passage corpus for delivering a proper answer given the input query. However, the retrieved passages are not ideal for guiding answer generation because of the discrepancy between retrieval and generation, i.e., the candidate passages are all treated equally during the retrieval procedure without considering their potential to generate a proper answer. This discrepancy makes a passage retriever deliver a sub-optimal collection of candidate passages to generate the answer. In this paper, we propose the GeneRative Knowledge Improved Passage Ranking (GripRank) approach, addressing the above challenge by distilling knowledge from a generative passage estimator (GPE) to a passage ranker, where the GPE is a generative language model used to measure how likely the candidate passages can generate the proper answer. We realize the distillation procedure by teaching the passage ranker learning to rank the passages ordered by the GPE. Furthermore, we improve the distillation quality by devising a curriculum knowledge distillation mechanism, which allows the knowledge provided by the GPE can be progressively distilled to the ranker through an easy-to-hard curriculum, enabling the passage ranker to correctly recognize the provenance of the answer from many plausible candidates. We conduct extensive experiments on four datasets across three knowledge-intensive language tasks. Experimental results show advantages over the state-of-the-art methods for both passage ranking and answer generation on the KILT benchmark.

arxiv情報

著者 Jiaqi Bai,Hongcheng Guo,Jiaheng Liu,Jian Yang,Xinnian Liang,Zhao Yan,Zhoujun Li
発行日 2023-08-15 17:10:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク