CoT-MoTE: Exploring ConTextual Masked Auto-Encoder Pre-training with Mixture-of-Textual-Experts for Passage Retrieval

要約

【タイトル】CoT-MoTE:混合テキストエキスパートを使用した文脈的マスクオートエンコーダープレトレーニングによるパッセージ検索の探索

【要約】

– パッセージ検索は、オープンドメインコーパスの大規模なコレクションから関連するパッセージを取得することを目的としています。
– 文脈的マスクオートエンコーディングは、パッセージ検索のための一貫性がある双方向エンコーダーの表現の瓶詰めプレトレーニングで効果的であることが証明されています。
– プレトレーニングおよび微調整ステージでシャーレングまたは完全に分離された双方向エンコーダーがしばしば基本的な検索アーキテクチャとして採用され、クエリとパッセージを彼らの潜在的な埋め込み空間にエンコードします。
– ただし、二重エンコーダーのパラメータを単純に共有または分離するだけでは、埋め込み空間のバランスの取れた識別ができません。
– この研究では、文脈的マスクオートエンコーダーをMixture-of-Textual-Experts(CoT-MoTE)で事前学習することを提案しています。
– 具体的には、クエリとパッセージの異なるプロパティを個別にエンコードするためのテキスト固有のエキスパートを組み込みます。
– 一方、共有自己注意層は一元的な注意モデリングのために保持されます。
– 大規模なパッセージ検索ベンチマークの結果、検索性能が着実に向上したことが示されています。
– 定量的分析も、潜在的な埋め込み空間のよりバランスの取れた識別を示しています。

要約(オリジナル)

Passage retrieval aims to retrieve relevant passages from large collections of the open-domain corpus. Contextual Masked Auto-Encoding has been proven effective in representation bottleneck pre-training of a monolithic dual-encoder for passage retrieval. Siamese or fully separated dual-encoders are often adopted as basic retrieval architecture in the pre-training and fine-tuning stages for encoding queries and passages into their latent embedding spaces. However, simply sharing or separating the parameters of the dual-encoder results in an imbalanced discrimination of the embedding spaces. In this work, we propose to pre-train Contextual Masked Auto-Encoder with Mixture-of-Textual-Experts (CoT-MoTE). Specifically, we incorporate textual-specific experts for individually encoding the distinct properties of queries and passages. Meanwhile, a shared self-attention layer is still kept for unified attention modeling. Results on large-scale passage retrieval benchmarks show steady improvement in retrieval performances. The quantitive analysis also shows a more balanced discrimination of the latent embedding spaces.

arxiv情報

著者 Guangyuan Ma,Xing Wu,Peng Wang,Songlin Hu
発行日 2023-04-20 10:12:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CL, cs.IR パーマリンク