Isotropic Representation Can Improve Dense Retrieval

要約

言語表現モデリングの最近の進歩は、高密度検索モデルの設計に広く影響を与えています。
特に、高性能の高密度検索モデルの多くは、BERT を使用してクエリとドキュメントの表現を評価し、その後コサイン類似度ベースのスコアリングを適用して関連性を判断します。
ただし、BERT 表現は狭い円錐形の異方性分布に従うことが知られており、そのような異方性分布はコサイン類似度に基づくスコアリングにとって望ましくない可能性があります。
この研究では、BERT ベースの DR も異方性分布に従うことを初めて示します。
この問題に対処するために、フローの正規化とホワイトニングの教師なし後処理手法を導入し、後処理手法を高密度検索モデルの表現に適用するためのシーケンスワイズ手法に加えてトークンワイズ手法を開発します。
提案された方法が表現を等方的に効果的に強化できることを示し、次に ColBERT と RepBERT を使用した実験を実行して、ドキュメントの再ランキングのパフォーマンス (NDCG 10) が 5.17\%$\sim$8.09\ 改善できることを示します。
ColBERT の場合は %、RepBERT の場合は 6.88\%$\sim$22.81\% です。
DR モデルの堅牢性を向上させる等方性表現の可能性を調べるために、テスト データセットがトレーニング データセットと異なる分布外タスクを調査します。
結果は、等方性表現により全体的にパフォーマンスが向上することを示しています。
たとえば、トレーニング データセットが MS-MARCO で、テスト データセットが Robust04 の場合、等方性後処理によりベースライン パフォーマンスが最大 24.98\% 向上します。
さらに、分布外データセットを使用してトレーニングされた等方性モデルは、分布内データセットを使用してトレーニングされたベースライン モデルよりも優れたパフォーマンスを発揮する可能性さえあることを示します。

要約(オリジナル)

The recent advancement in language representation modeling has broadly affected the design of dense retrieval models. In particular, many of the high-performing dense retrieval models evaluate representations of query and document using BERT, and subsequently apply a cosine-similarity based scoring to determine the relevance. BERT representations, however, are known to follow an anisotropic distribution of a narrow cone shape and such an anisotropic distribution can be undesirable for the cosine-similarity based scoring. In this work, we first show that BERT-based DR also follows an anisotropic distribution. To cope with the problem, we introduce unsupervised post-processing methods of Normalizing Flow and whitening, and develop token-wise method in addition to the sequence-wise method for applying the post-processing methods to the representations of dense retrieval models. We show that the proposed methods can effectively enhance the representations to be isotropic, then we perform experiments with ColBERT and RepBERT to show that the performance (NDCG at 10) of document re-ranking can be improved by 5.17\%$\sim$8.09\% for ColBERT and 6.88\%$\sim$22.81\% for RepBERT. To examine the potential of isotropic representation for improving the robustness of DR models, we investigate out-of-distribution tasks where the test dataset differs from the training dataset. The results show that isotropic representation can achieve a generally improved performance. For instance, when training dataset is MS-MARCO and test dataset is Robust04, isotropy post-processing can improve the baseline performance by up to 24.98\%. Furthermore, we show that an isotropic model trained with an out-of-distribution dataset can even outperform a baseline model trained with the in-distribution dataset.

arxiv情報

著者 Euna Jung,Jungwon Park,Jaekeol Choi,Sungyoon Kim,Wonjong Rhee
発行日 2023-07-31 13:56:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク