Unsupervised Dense Retrieval Training with Web Anchors



– アンカーテキストは、リンクされたページから参照されるコンテンツを説明する。これは、関連するドキュメントから適切な情報を取得する検索クエリに類似している。
– 共通点に基づいて、ウェブアンカーで対照的な学習を行った非監視型の密な検索器、Anchor-DRをトレーニングする。
– 情報のないアンカー(「ホームページ」などの機能的なアンカーなど)をフィルタリングするために、検索クエリと同様の情報を含むアンカーのみを選択する新しいフィルタリング技術を提案する。
– 実験により、Anchor-DRが非監視型の密な検索において、現在の最高水準の方法よりも大幅に優れていることが示された(たとえば、MSMARCOでNDCG@10が5.3%向上)。
– 私たちの手法の利点は、特に検索および質問応答タスクにおいて顕著であることが判明した。
– 私たちの分析により、アンカードンクとドキュメントのペアのパターンは、検索クエリとドキュメントのペアのパターンに似ていることが分かった。
– コードはhttps:/ / github.com/Veronicium/AnchorDRで入手可能。


In this work, we present an unsupervised retrieval method with contrastive learning on web anchors. The anchor text describes the content that is referenced from the linked page. This shows similarities to search queries that aim to retrieve pertinent information from relevant documents. Based on their commonalities, we train an unsupervised dense retriever, Anchor-DR, with a contrastive learning task that matches the anchor text and the linked document. To filter out uninformative anchors (such as “homepage” or other functional anchors), we present a novel filtering technique to only select anchors that contain similar types of information as search queries. Experiments show that Anchor-DR outperforms state-of-the-art methods on unsupervised dense retrieval by a large margin (e.g., by 5.3% NDCG@10 on MSMARCO). The gain of our method is especially significant for search and question answering tasks. Our analysis further reveals that the pattern of anchor-document pairs is similar to that of search query-document pairs. Code available at https://github.com/Veronicium/AnchorDR.


著者 Yiqing Xie,Xiao Liu,Chenyan Xiong
発行日 2023-05-10 01:46:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CL, cs.IR パーマリンク