Wikiformer: Pre-training with Structured Information of Wikipedia for Ad-hoc Retrieval

要約

深層学習および自然言語処理技術の発展に伴い、事前トレーニングされた言語モデルが情報検索 (IR) 問題を解決するために広く使用されてきました。
これらのモデルは、事前トレーニングと微調整パラダイムの恩恵を受けて、最先端のパフォーマンスを実現します。
これまでの研究では、ウィキペディアのプレーンテキストが事前トレーニング段階で広く使用されていました。
しかし、タイトル、要約、階層見出し (複数レベルのタイトル) 構造、記事間の関係、参考文献、ハイパーリンク構造、執筆組織など、Wikipedia の豊富な構造情報は十分に調査されていません。
このペーパーでは、ウィキペディアの構造化された知識に基づいて、IR タスクに合わせた 4 つの事前トレーニング目標を考案しました。
既存の事前トレーニング方法と比較して、私たちのアプローチは、ウィキペディアから人間が編集した構造化データを活用することで、トレーニング コーパス内の意味論的な知識をより適切に取り込むことができます。
複数の IR ベンチマーク データセットの実験結果は、既存の強力な検索ベースラインと比較して、ゼロショット設定と微調整設定の両方でモデルのパフォーマンスが優れていることを示しています。
さらに、生物医学および法律分野での実験結果は、私たちのアプローチが、特に長いテキストの類似性照合が必要なシナリオにおいて、以前のモデルと比較して垂直領域で優れたパフォーマンスを達成することを示しています。

要約(オリジナル)

With the development of deep learning and natural language processing techniques, pre-trained language models have been widely used to solve information retrieval (IR) problems. Benefiting from the pre-training and fine-tuning paradigm, these models achieve state-of-the-art performance. In previous works, plain texts in Wikipedia have been widely used in the pre-training stage. However, the rich structured information in Wikipedia, such as the titles, abstracts, hierarchical heading (multi-level title) structure, relationship between articles, references, hyperlink structures, and the writing organizations, has not been fully explored. In this paper, we devise four pre-training objectives tailored for IR tasks based on the structured knowledge of Wikipedia. Compared to existing pre-training methods, our approach can better capture the semantic knowledge in the training corpus by leveraging the human-edited structured data from Wikipedia. Experimental results on multiple IR benchmark datasets show the superior performance of our model in both zero-shot and fine-tuning settings compared to existing strong retrieval baselines. Besides, experimental results in biomedical and legal domains demonstrate that our approach achieves better performance in vertical domains compared to previous models, especially in scenarios where long text similarity matching is needed.

arxiv情報

著者 Weihang Su,Qingyao Ai,Xiangsheng Li,Jia Chen,Yiqun Liu,Xiaolong Wu,Shengluan Hou
発行日 2024-01-01 06:42:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.IR パーマリンク