Dwell in the Beginning: How Language Models Embed Long Documents for Dense Retrieval

要約

この研究では、特に Web ドキュメント検索のコンテキストにおいて、テキスト表現学習のための Transformer ベースのモデルにおける位置バイアスの存在を調査します。
私たちは、因果言語モデルの入力シーケンスの途中で情報が失われることを実証した以前の研究に基づいて、それを表現学習の領域に拡張しました。
言語モデルの事前トレーニング、対比事前トレーニング、対比微調整など、エンコーダ デコーダ モデルのトレーニングのさまざまな段階での位置バイアスを調べます。
MS-MARCO ドキュメント コレクションを使った実験では、対照的な事前トレーニングの後、モデルはすでに入力の初期の内容をより適切に捕捉するエンベディングを生成しており、微調整するとこの効果がさらに悪化することが明らかになりました。

要約(オリジナル)

This study investigates the existence of positional biases in Transformer-based models for text representation learning, particularly in the context of web document retrieval. We build on previous research that demonstrated loss of information in the middle of input sequences for causal language models, extending it to the domain of representation learning. We examine positional biases at various stages of training for an encoder-decoder model, including language model pre-training, contrastive pre-training, and contrastive fine-tuning. Experiments with the MS-MARCO document collection reveal that after contrastive pre-training the model already generates embeddings that better capture early contents of the input, with fine-tuning further aggravating this effect.

arxiv情報

著者 João Coelho,Bruno Martins,João Magalhães,Jamie Callan,Chenyan Xiong
発行日 2024-04-05 15:16:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.IR パーマリンク