要約
高密度レトリーバーは、テキスト検索とオープンドメインの質問応答で大きな進歩を遂げましたが、ほとんどの成果は大量の人間の監督によってのみ可能になりました.
この作業では、疑似クエリとドキュメントのペアを作成し、高密度検索モデルを注釈なしでスケーラブルな方法でトレーニングする 2 つの方法を提案することにより、教師なしメソッドの開発を目指します。クエリ抽出と転送クエリ生成です。
前者の方法は、元のドキュメントから顕著なスパンを選択することによって疑似クエリを生成します。
後者は、他の NLP タスク (要約など) 用にトレーニングされた生成モデルを利用して、疑似クエリを生成します。
広範な実験により、提案された増強方法でトレーニングされたモデルは、複数の強力なベースラインに対して同等に (またはそれ以上に) パフォーマンスが向上することが示されています。
これらの戦略を組み合わせることでさらなる改善が行われ、BEIR と ODQA の両方のデータセットで教師なし高密度検索の最先端のパフォーマンスが達成されます。
要約(オリジナル)
Dense retrievers have made significant strides in text retrieval and open-domain question answering, even though most achievements were made possible only with large amounts of human supervision. In this work, we aim to develop unsupervised methods by proposing two methods that create pseudo query-document pairs and train dense retrieval models in an annotation-free and scalable manner: query extraction and transferred query generation. The former method produces pseudo queries by selecting salient spans from the original document. The latter utilizes generation models trained for other NLP tasks (e.g., summarization) to produce pseudo queries. Extensive experiments show that models trained with the proposed augmentation methods can perform comparably well (or better) to multiple strong baselines. Combining those strategies leads to further improvements, achieving the state-of-the-art performance of unsupervised dense retrieval on both BEIR and ODQA datasets.
arxiv情報
著者 | Rui Meng,Ye Liu,Semih Yavuz,Divyansh Agarwal,Lifu Tu,Ning Yu,Jianguo Zhang,Meghana Bhat,Yingbo Zhou |
発行日 | 2023-03-07 20:51:26+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google