要約
タイトル:PAIR:パッセージ中心の類似関係を活用したdense passage retrievalの改善
要約:
– 最近、dense passage retrievalは、さまざまな自然言語処理タスクで関連情報を検索する主流の手法となっています。
– 広く採用されているデュアルエンコーダーアーキテクチャを改善するための研究が数多く研究されています。
– しかし、これまでのほとんどの研究は、デュアルエンコーダートレトリバーを学習する際に、クエリ中心の類似関係のみを考慮しています。
– より包括的な類似関係を捉えるために、私たちは、dense passage retrievalのために両方のクエリ中心的およびパッセージ中心的類似関係を活用する新しいアプローチを提案しています(PAIRと呼ばれます)。
– 私たちのアプローチを実装するために、2つの種類の類似関係の形式的な定式化を導入し、知識蒸留による高品質の疑似ラベルデータを生成し、パッセージ中心の類似関係制約を組み込んだ効果的な2段階のトレーニング手順を設計するという3つの主要な技術的貢献を行いました。
– 広範囲にわたる実験では、MSMARCOおよびNatural Questionsの両方のデータセットで、私たちのアプローチが従来の最先端モデルを大幅に上回ることが示されています。
要約(オリジナル)
Recently, dense passage retrieval has become a mainstream approach to finding relevant information in various natural language processing tasks. A number of studies have been devoted to improving the widely adopted dual-encoder architecture. However, most of the previous studies only consider query-centric similarity relation when learning the dual-encoder retriever. In order to capture more comprehensive similarity relations, we propose a novel approach that leverages both query-centric and PAssage-centric sImilarity Relations (called PAIR) for dense passage retrieval. To implement our approach, we make three major technical contributions by introducing formal formulations of the two kinds of similarity relations, generating high-quality pseudo labeled data via knowledge distillation, and designing an effective two-stage training procedure that incorporates passage-centric similarity relation constraint. Extensive experiments show that our approach significantly outperforms previous state-of-the-art models on both MSMARCO and Natural Questions datasets.
arxiv情報
著者 | Ruiyang Ren,Shangwen Lv,Yingqi Qu,Jing Liu,Wayne Xin Zhao,QiaoQiao She,Hua Wu,Haifeng Wang,Ji-Rong Wen |
発行日 | 2023-04-23 17:06:18+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, OpenAI