RocketQAv2: A Joint Training Method for Dense Passage Retrieval and Passage Re-ranking

要約

タイトル:RocketQAv2:密集パッセージ検索とパッセージ再ランキングのための統合トレーニング方法

要約:

– 自然言語処理の様々なタスクにおいて、パッセージ検索とパッセージ再ランキングは重要な手順であり、関連情報を見つけて順位付けるために必要である。
– 両方の手順が最終的なパフォーマンスに貢献するため、相互の改善を達成するために、両方を共同で最適化することが重要である。
– 本論文では、密集パッセージ検索とパッセージ再ランキングのための新しい統合トレーニング手法を提案する。
– 主な貢献は、動的リスト圧縮を導入し、リトリーバと再ランカーの両方のための統一リストトレーニング手法を設計することである。
– 動的リスト圧縮中、リトリーバと再ランカーはお互いの関連情報に基づいて適応的に改善することができる。
– リストトレーニング手法の多様なトレーニングインスタンスを構築するためのハイブリッドデータ拡張戦略を提案する。
– 幅広い実験により、本手法が MSMARCO および Natural Questions データセットの両方で効果的であることを示す。
– コードは https://github.com/PaddlePaddle/RocketQA で入手可能。

要約(オリジナル)

In various natural language processing tasks, passage retrieval and passage re-ranking are two key procedures in finding and ranking relevant information. Since both the two procedures contribute to the final performance, it is important to jointly optimize them in order to achieve mutual improvement. In this paper, we propose a novel joint training approach for dense passage retrieval and passage re-ranking. A major contribution is that we introduce the dynamic listwise distillation, where we design a unified listwise training approach for both the retriever and the re-ranker. During the dynamic distillation, the retriever and the re-ranker can be adaptively improved according to each other’s relevance information. We also propose a hybrid data augmentation strategy to construct diverse training instances for listwise training approach. Extensive experiments show the effectiveness of our approach on both MSMARCO and Natural Questions datasets. Our code is available at https://github.com/PaddlePaddle/RocketQA.

arxiv情報

著者 Ruiyang Ren,Yingqi Qu,Jing Liu,Wayne Xin Zhao,Qiaoqiao She,Hua Wu,Haifeng Wang,Ji-Rong Wen
発行日 2023-04-23 16:56:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CL パーマリンク