Is Cosine-Similarity of Embeddings Really About Similarity?

要約

コサイン類似度は、2 つのベクトル間の角度のコサイン、または同等の正規化間の内積です。
一般的なアプリケーションは、学習された低次元特徴の埋め込みにコサイン類似度を適用することで、高次元オブジェクト間の意味論的な類似性を定量化することです。
これは、実際には埋め込まれたベクトル間の正規化されていない内積よりもうまく機能する可能性がありますが、場合によっては悪くなる場合もあります。
この経験的観察についての洞察を得るために、閉形式ソリューションが分析的洞察を容易にする、正則化線形モデルから導出された埋め込みを研究します。
私たちは、コサイン類似度がどのようにして恣意的な、したがって意味のない「類似度」を生み出す可能性があるかを分析的に導き出します。
一部の線形モデルでは類似性は一意ですらないが、他のモデルでは正則化によって暗黙的に制御されます。
線形モデルを超えた影響について説明します。深いモデルを学習する際には、さまざまな正則化の組み合わせが使用されます。
これらは、結果として得られる埋め込みのコサイン類似度を取得する際に、暗黙的かつ意図しない影響を及ぼし、結果を不透明にし、場合によっては恣意的なものにしてしまいます。
これらの洞察に基づいて、コサイン相似性とアウトラインの代替案を盲目的に使用しないように警告します。

要約(オリジナル)

Cosine-similarity is the cosine of the angle between two vectors, or equivalently the dot product between their normalizations. A popular application is to quantify semantic similarity between high-dimensional objects by applying cosine-similarity to a learned low-dimensional feature embedding. This can work better but sometimes also worse than the unnormalized dot-product between embedded vectors in practice. To gain insight into this empirical observation, we study embeddings derived from regularized linear models, where closed-form solutions facilitate analytical insights. We derive analytically how cosine-similarity can yield arbitrary and therefore meaningless `similarities.’ For some linear models the similarities are not even unique, while for others they are implicitly controlled by the regularization. We discuss implications beyond linear models: a combination of different regularizations are employed when learning deep models; these have implicit and unintended effects when taking cosine-similarities of the resulting embeddings, rendering results opaque and possibly arbitrary. Based on these insights, we caution against blindly using cosine-similarity and outline alternatives.

arxiv情報

著者 Harald Steck,Chaitanya Ekanadham,Nathan Kallus
発行日 2024-03-08 16:48:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.IR, cs.LG パーマリンク