Taken by Surprise: Contrast effect for Similarity Scores

要約

オブジェクト ベクトルの埋め込みの類似性を正確に評価することは、自然言語処理、情報検索、および分類タスクにとって非常に重要です。
一般的な類似性スコア (コサイン類似度など) は、埋め込みベクトルのペアに基づいており、オブジェクトが抽出されるアンサンブルの分布は無視されます。
オブジェクトの類似性に対する人間の認識は、オブジェクトが出現するコンテキストに大きく依存します。
この研究では、人間の知覚のコントラスト効果をカプセル化し、ゼロショットおよび少数ショットの文書分類タスクにおける分類パフォーマンスを大幅に向上させる、アンサンブル正規化された類似性メトリックである $\textit{サプライズ スコア}$ を提案します。
このスコアは、ペアごとのアンサンブルの類似性と比較して、2 つの要素間に特定の類似性を見つけたときの驚きを定量化します。
このメトリクスをゼロ/少数ショット分類およびクラスタリング タスクで評価すると、通常、生のコサイン類似度と比較して 10 ~ 15 % 優れたパフォーマンスが得られます。
私たちのコードは https://github.com/MeetElise/surprise-similarity で入手できます。

要約(オリジナル)

Accurately evaluating the similarity of object vector embeddings is of critical importance for natural language processing, information retrieval and classification tasks. Popular similarity scores (e.g cosine similarity) are based on pairs of embedding vectors and disregard the distribution of the ensemble from which objects are drawn. Human perception of object similarity significantly depends on the context in which the objects appear. In this work we propose the $\textit{surprise score}$, an ensemble-normalized similarity metric that encapsulates the contrast effect of human perception and significantly improves the classification performance on zero- and few-shot document classification tasks. This score quantifies the surprise to find a given similarity between two elements relative to the pairwise ensemble similarities. We evaluate this metric on zero/few shot classification and clustering tasks and typically find 10-15 % better performance compared to raw cosine similarity. Our code is available at https://github.com/MeetElise/surprise-similarity.

arxiv情報

著者 Thomas C. Bachlechner,Mario Martone,Marjorie Schillo
発行日 2023-08-22 15:53:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.IR, cs.LG パーマリンク