要約
最近、事前トレーニングされた言語モデルを使用した高密度パッセージ検索技術の探索にさまざまな研究が向けられており、その中でマスクされた自動エンコーダー (MAE) 事前トレーニング アーキテクチャが最も有望なものとして浮上しています。
従来の MAE フレームワークは、デコーダのパッセージ再構築を活用してエンコーダのテキスト表現能力を強化することに依存しており、それによって結果として得られる高密度検索システムのパフォーマンスが向上します。
デコーダのパッセージ再構築を通じてエンコーダの表現能力を構築するという文脈の中で、「より要求の厳しい」デコーダには、対応してエンコーダの能力の向上が必要になると仮定するのは合理的です。
この目的を達成するために、デコーダの課題を強化するために、点ごとの相互情報に基づいた新しいトークンの重要性を意識したマスキング戦略を提案します。
重要なのは、私たちのアプローチは、事前トレーニング段階に追加の費用を追加することなく、監視されていない方法で実装できることです。
私たちの実験では、提案された方法が大規模な教師付きパッセージ検索データセットとドメイン外のゼロショット検索ベンチマークに対して効果的かつ堅牢であることが検証されています。
要約(オリジナル)
Recently, various studies have been directed towards exploring dense passage retrieval techniques employing pre-trained language models, among which the masked auto-encoder (MAE) pre-training architecture has emerged as the most promising. The conventional MAE framework relies on leveraging the passage reconstruction of decoder to bolster the text representation ability of encoder, thereby enhancing the performance of resulting dense retrieval systems. Within the context of building the representation ability of the encoder through passage reconstruction of decoder, it is reasonable to postulate that a “more demanding” decoder will necessitate a corresponding increase in the encoder’s ability. To this end, we propose a novel token importance aware masking strategy based on pointwise mutual information to intensify the challenge of the decoder. Importantly, our approach can be implemented in an unsupervised manner, without adding additional expenses to the pre-training phase. Our experiments verify that the proposed method is both effective and robust on large-scale supervised passage retrieval datasets and out-of-domain zero-shot retrieval benchmarks.
arxiv情報
著者 | Zehan Li,Yanzhao Zhang,Dingkun Long,Pengjun Xie |
発行日 | 2023-05-22 16:27:10+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google