ListConRanker: A Contrastive Text Reranker with Listwise Encoding

要約

リランカー モデルは、指定されたクエリとパッセージの間のセマンティクスの類似性に基づいてパッセージを再ランク付けすることを目的としています。これは、検索拡張生成の広範な適用により、最近さらに注目を集めています。
これまでのほとんどのメソッドはポイントワイズ エンコーディングを適用します。つまり、モデルに入力される各パッセージのクエリのコンテキストのみをエンコードできます。
ただし、リランカー モデルの場合、クエリが与えられた場合、パッセージ間の比較結果はさらに重要であり、これはリストワイズ エンコーディングと呼ばれます。
さらに、以前のモデルはクロスエントロピー損失関数を使用してトレーニングされていたため、トレーニング中の勾配の変化が滑らかではなく、トレーニング効率が低いという問題がありました。
これらの問題に対処するために、新しい Listwise エンコードされた Contrastive text reRanker (ListConRanker) を提案します。
これは、エンコード処理中にパッセージを他のパッセージと比較するのに役立ち、肯定的な例間、および肯定的な例と否定的な例の間の対照的な情報を強化できます。
同時に、円損失を使用してモデルをトレーニングし、勾配の柔軟性を高め、トレーニング効率の問題を解決します。
実験結果は、ListConRanker が cMedQA1.0、cMedQA2.0、MMarcoReranking、および T2Reranking データセットを含む中国語大規模テキスト埋め込みベンチマークの再ランキング ベンチマークで最先端のパフォーマンスを達成することを示しています。

要約(オリジナル)

Reranker models aim to re-rank the passages based on the semantics similarity between the given query and passages, which have recently received more attention due to the wide application of the Retrieval-Augmented Generation. Most previous methods apply pointwise encoding, meaning that it can only encode the context of the query for each passage input into the model. However, for the reranker model, given a query, the comparison results between passages are even more important, which is called listwise encoding. Besides, previous models are trained using the cross-entropy loss function, which leads to issues of unsmooth gradient changes during training and low training efficiency. To address these issues, we propose a novel Listwise-encoded Contrastive text reRanker (ListConRanker). It can help the passage to be compared with other passages during the encoding process, and enhance the contrastive information between positive examples and between positive and negative examples. At the same time, we use the circle loss to train the model to increase the flexibility of gradients and solve the problem of training efficiency. Experimental results show that ListConRanker achieves state-of-the-art performance on the reranking benchmark of Chinese Massive Text Embedding Benchmark, including the cMedQA1.0, cMedQA2.0, MMarcoReranking, and T2Reranking datasets.

arxiv情報

著者 Junlong Liu,Yue Ma,Ruihui Zhao,Junhao Zheng,Qianli Ma,Yangyang Kang
発行日 2025-01-13 07:51:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.IR パーマリンク