AugTriever: Unsupervised Dense Retrieval by Scalable Data Augmentation

要約

高密度レトリバーは、テキスト検索とオープンドメインの質問応答において大幅な進歩を遂げました。
ただし、これらの成果のほとんどは、人間による注釈付きの大規模な監督に大きく依存しています。
この研究では、高密度検索モデルを改善するための教師なし手法を開発することを目的としています。
疑似クエリドキュメントのペアを作成することで、アノテーション不要でスケーラブルなトレーニングを可能にする 2 つのアプローチ、クエリ抽出と転送されたクエリ生成を提案します。
クエリ抽出方法には、元のドキュメントから顕著なスパンを選択して擬似クエリを生成することが含まれます。
一方、転送されたクエリ生成方法では、要約などの他の NLP タスク用にトレーニングされた生成モデルを利用して、疑似クエリを生成します。
広範な実験を通じて、これらの拡張手法を使用してトレーニングされたモデルは、複数の強力な高密度ベースラインよりも優れているとは言えないにしても、同等のパフォーマンスを達成できることを実証しました。
さらに、これらの戦略を組み合わせることでさらなる改善がもたらされ、その結果、BEIR データセットと ODQA データセットの両方でベンチマークされた教師なし高密度検索、教師なしドメイン適応、教師あり微調整の優れたパフォーマンスが得られます。
コードとデータセットは https://github.com/salesforce/AugTriever で公開されています。

要約(オリジナル)

Dense retrievers have made significant strides in text retrieval and open-domain question answering. However, most of these achievements have relied heavily on extensive human-annotated supervision. In this study, we aim to develop unsupervised methods for improving dense retrieval models. We propose two approaches that enable annotation-free and scalable training by creating pseudo querydocument pairs: query extraction and transferred query generation. The query extraction method involves selecting salient spans from the original document to generate pseudo queries. On the other hand, the transferred query generation method utilizes generation models trained for other NLP tasks, such as summarization, to produce pseudo queries. Through extensive experimentation, we demonstrate that models trained using these augmentation methods can achieve comparable, if not better, performance than multiple strong dense baselines. Moreover, combining these strategies leads to further improvements, resulting in superior performance of unsupervised dense retrieval, unsupervised domain adaptation and supervised finetuning, benchmarked on both BEIR and ODQA datasets. Code and datasets are publicly available at https://github.com/salesforce/AugTriever.

arxiv情報

著者 Rui Meng,Ye Liu,Semih Yavuz,Divyansh Agarwal,Lifu Tu,Ning Yu,Jianguo Zhang,Meghana Bhat,Yingbo Zhou
発行日 2024-09-18 09:09:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.IR パーマリンク