Hubness Reduction Improves Sentence-BERT Semantic Spaces

要約

テキストの意味表現、つまり幾何学によって意味を捉える自然言語の表現は、情報検索や文書のグループ化などの分野に不可欠です。
高次元で学習させた密ベクトルは、そのような表現として近年大きな注目を集めています。
私たちは、Sentence-BERT で作成された埋め込みから生じる意味空間の構造を調査し、その表現がハブネスと呼ばれる高次元のよく知られた問題に悩まされていることを発見しました。
ハブネスにより、一部のテキスト (ハブ) が他の多くのテキストの隣接関係にある一方で、ほとんどのテキスト (いわゆるアンチハブ) が他のテキストの隣接関係にない、または他のテキストがほとんど存在しないという非対称な隣接関係が生じます。
ハブネス スコアと近傍ベースの分類器のエラー率を使用して、埋め込みの意味論的な品質を定量化します。
ハブネスが高い場合、ハブネス低減方法を使用してエラー率とハブネスを低減できることがわかりました。
私たちは、2 つの方法の組み合わせが最良の削減をもたらすものであることを特定します。
たとえば、テスト済みの事前トレーニング済みモデルの 1 つでは、この組み合わせ方法によりハブネスが約 75%、エラー率が約 9% 削減されます。
したがって、埋め込み空間におけるハブネスを軽減すると、テキストのより良い意味表現が提供されると主張します。

要約(オリジナル)

Semantic representations of text, i.e. representations of natural language which capture meaning by geometry, are essential for areas such as information retrieval and document grouping. High-dimensional trained dense vectors have received much attention in recent years as such representations. We investigate the structure of semantic spaces that arise from embeddings made with Sentence-BERT and find that the representations suffer from a well-known problem in high dimensions called hubness. Hubness results in asymmetric neighborhood relations, such that some texts (the hubs) are neighbours of many other texts while most texts (so-called anti-hubs), are neighbours of few or no other texts. We quantify the semantic quality of the embeddings using hubness scores and error rate of a neighbourhood based classifier. We find that when hubness is high, we can reduce error rate and hubness using hubness reduction methods. We identify a combination of two methods as resulting in the best reduction. For example, on one of the tested pretrained models, this combined method can reduce hubness by about 75% and error rate by about 9%. Thus, we argue that mitigating hubness in the embedding space provides better semantic representations of text.

arxiv情報

著者 Beatrix M. G. Nielsen,Lars Kai Hansen
発行日 2023-11-30 09:03:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG, cs.SI パーマリンク