要約
多数の自然言語処理タスクにわたるプロンプトベース学習の有効性により、高密度パッセージ検索への統合が可能になりました。
これまでの研究は、単一のベクトルを継続的なプロンプトとして最適化することによって、事前トレーニングされた言語モデルの意味的理解を強化することに主に焦点を当ててきました。
ただし、このアプローチは意味空間の崩壊につながります。
同一の意味情報がすべての表現に浸透し、その分布が制限された領域に集中します。
これにより、密な検索中に関連するパッセージと無関係なパッセージを区別することが妨げられます。
この問題に取り組むために、トピックベースのプロンプトを使用する高密度パッセージ検索モデルである Topic-DPR を紹介します。
単一プロンプト法とは異なり、複数のトピックベースのプロンプトが確率的シンプレックス上に確立され、対照学習を通じて同時に最適化されます。
これにより、表現がトピックの分布と一致するようになり、空間の均一性が向上します。
さらに、半構造化データを活用して高密度検索の効率を高める、新しいポジティブおよびネガティブ サンプリング戦略を導入します。
2 つのデータセットからの実験結果は、私たちの方法が以前の最先端の検索技術を超えていることを裏付けています。
要約(オリジナル)
Prompt-based learning’s efficacy across numerous natural language processing tasks has led to its integration into dense passage retrieval. Prior research has mainly focused on enhancing the semantic understanding of pre-trained language models by optimizing a single vector as a continuous prompt. This approach, however, leads to a semantic space collapse; identical semantic information seeps into all representations, causing their distributions to converge in a restricted region. This hinders differentiation between relevant and irrelevant passages during dense retrieval. To tackle this issue, we present Topic-DPR, a dense passage retrieval model that uses topic-based prompts. Unlike the single prompt method, multiple topic-based prompts are established over a probabilistic simplex and optimized simultaneously through contrastive learning. This encourages representations to align with their topic distributions, improving space uniformity. Furthermore, we introduce a novel positive and negative sampling strategy, leveraging semi-structured data to boost dense retrieval efficiency. Experimental results from two datasets affirm that our method surpasses previous state-of-the-art retrieval techniques.
arxiv情報
著者 | Qingfa Xiao,Shuangyin Li,Lei Chen |
発行日 | 2023-10-10 13:45:24+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google