BERM: Training the Balanced and Extractable Representation for Matching to Improve Generalization Ability of Dense Retrieval

要約

高密度検索は、ドメイン内のラベル付きデータセットでトレーニングされた場合、第 1 段階の検索プロセスで有望であることが示されています。
しかし、これまでの研究では、高密度検索は、ドメイン不変で解釈可能な特徴(つまり、情報検索の本質である 2 つのテキスト間の一致信号)のモデリングが弱いため、目に見えないドメインに一般化するのは難しいことがわかっています。
この論文では、BERMと呼ばれるマッチング信号をキャプチャすることによって密検索の一般化を改善する新しい方法を提案します。
完全にきめの細かい表現とクエリ指向の顕著性は、一致信号の 2 つの特性です。
したがって、BERM では、単一のパッセージが複数のユニットに分割され、効果的なマッチング信号を取得するためのトレーニングにおける制約として 2 つのユニットレベルの要件が提案されています。
1 つは意味単位のバランス、もう 1 つは必須の一致単位の抽出可能性です。
ユニットレベルのビューとバランスのとれたセマンティクスにより、表現はきめ細かい方法でテキストを表現します。
必須の一致単位の抽出可能性により、特定のクエリに敏感なパッセージ表現が作成され、複雑なコンテキストを含むパッセージから純粋な一致情報が抽出されます。
BEIR に関する実験では、私たちの方法をさまざまな高密度検索トレーニング方法 (バニラ、ハード ネガ マイニング、知識蒸留) と効果的に組み合わせて、推論オーバーヘッドやターゲット ドメイン データを追加することなく一般化能力を向上できることが示されています。

要約(オリジナル)

Dense retrieval has shown promise in the first-stage retrieval process when trained on in-domain labeled datasets. However, previous studies have found that dense retrieval is hard to generalize to unseen domains due to its weak modeling of domain-invariant and interpretable feature (i.e., matching signal between two texts, which is the essence of information retrieval). In this paper, we propose a novel method to improve the generalization of dense retrieval via capturing matching signal called BERM. Fully fine-grained expression and query-oriented saliency are two properties of the matching signal. Thus, in BERM, a single passage is segmented into multiple units and two unit-level requirements are proposed for representation as the constraint in training to obtain the effective matching signal. One is semantic unit balance and the other is essential matching unit extractability. Unit-level view and balanced semantics make representation express the text in a fine-grained manner. Essential matching unit extractability makes passage representation sensitive to the given query to extract the pure matching information from the passage containing complex context. Experiments on BEIR show that our method can be effectively combined with different dense retrieval training methods (vanilla, hard negatives mining and knowledge distillation) to improve its generalization ability without any additional inference overhead and target domain data.

arxiv情報

著者 Shicheng Xu,Liang Pang,Huawei Shen,Xueqi Cheng
発行日 2023-05-18 15:43:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.IR パーマリンク