RetroMAE-2: Duplex Masked Auto-Encoder For Pre-Training Retrieval-Oriented Language Models

要約

タイトル:事前学習向けDuplex Masked Auto-Encoderを使用した検索指向言語モデルの作成

要約:

– 検索タスク(Web検索やオープンドメインの質問応答など)をサポートするため、RetroMAEなどの検索指向言語モデルの開発が進んでいる。
– これまでの多くの研究は、[CLS]トークンの文脈に応じた埋め込みの意味表現能力を向上させることに焦点を当ててきたが、最近の研究では、[CLS]以外の通常のトークンにも追加情報が含まれており、より良い表現効果を引き出すことができることがわかっている。
– そこで、現在の方法を拡張し、すべての文脈に沿った埋め込みを共同で事前学習できるようにする必要がある。
– 本研究では、Duplex Masked Auto-Encoder(DupMAE)という新しい事前学習手法を提案している。DupMAEは、2つの補完的な自己符号化課題を活用し、単一のエンコーダをトレーニングすることで、事前学習モデルの埋め込み全体をコンパクトに集約して最終的な意味表現を生成する。
– DupMAEはシンプルでありながら、実証的に競争力があり、MS MARCOやBEIRのような一般的なベンチマークで優れた検索パフォーマンスを達成している。

要約(オリジナル)

To better support information retrieval tasks such as web search and open-domain question answering, growing effort is made to develop retrieval-oriented language models, e.g., RetroMAE and many others. Most of the existing works focus on improving the semantic representation capability for the contextualized embedding of the [CLS] token. However, recent study shows that the ordinary tokens besides [CLS] may provide extra information, which help to produce a better representation effect. As such, it’s necessary to extend the current methods where all contextualized embeddings can be jointly pre-trained for the retrieval tasks. In this work, we propose a novel pre-training method called Duplex Masked Auto-Encoder, a.k.a. DupMAE. It is designed to improve the quality of semantic representation where all contextualized embeddings of the pre-trained model can be leveraged. It takes advantage of two complementary auto-encoding tasks: one reconstructs the input sentence on top of the [CLS] embedding; the other one predicts the bag-of-words feature of the input sentence based on the ordinary tokens’ embeddings. The two tasks are jointly conducted to train a unified encoder, where the whole contextualized embeddings are aggregated in a compact way to produce the final semantic representation. DupMAE is simple but empirically competitive: it substantially improves the pre-trained model’s representation capability and transferability, where superior retrieval performances can be achieved on popular benchmarks, like MS MARCO and BEIR.

arxiv情報

著者 Shitao Xiao,Zheng Liu,Yingxia Shao,Zhao Cao
発行日 2023-05-04 05:37:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CL パーマリンク