Surpassing Cosine Similarity for Multidimensional Comparisons: Dimension Insensitive Euclidean Metric (DIEM)

要約

計算能力とハードウェア効率の進歩により、ますます複雑かつ高次元の問題に取り組むことが可能になりました。
人工知能 (AI) は目覚ましい成果を上げましたが、高次元のソリューションの解釈可能性は依然として課題です。
重要な問題は多次元量の比較であり、これは主成分分析 (PCA) や K 平均法クラスタリングなどの手法では不可欠です。
このような比較には、コサイン類似度、ユークリッド距離、マンハッタン距離などの一般的な指標がよく使用されます。たとえば、人間の運動制御システムの筋肉の相乗効果などです。
ただし、次元が増加するにつれて、それらの適用可能性と解釈可能性は減少します。
このペーパーでは、これらのメトリクスに対する次元性の影響を包括的に分析します。
私たちの結果は、コサイン類似性の重大な制限、特にベクトルの次元への依存性を明らかにし、偏った解釈の難しい結果をもたらします。
これに対処するために、次元にまたがる優れた堅牢性と一般化可能性を実証する次元非依存ユークリッド メトリック (DIEM) を導入します。
DIEM は一貫した変動性を維持し、従来の指標で観察されたバイアスを排除するため、高次元の比較の信頼できるツールになります。
この新しい指標はコサイン類似度に代わる可能性があり、神経運動制御から機械学習や深層学習に至るまでの分野で多次元データを分析するための、より正確で洞察力に富んだ方法を提供します。

要約(オリジナル)

The advancement in computational power and hardware efficiency enabled the tackling of increasingly complex and high-dimensional problems. While artificial intelligence (AI) achieved remarkable results, the interpretability of high-dimensional solutions remains challenging. A critical issue is the comparison of multidimensional quantities, which is essential in techniques like Principal Component Analysis (PCA), or k-means clustering. Common metrics such as cosine similarity, Euclidean distance, and Manhattan distance are often used for such comparisons – for example in muscular synergies of the human motor control system. However, their applicability and interpretability diminish as dimensionality increases. This paper provides a comprehensive analysis of the effects of dimensionality on these metrics. Our results reveal significant limitations of cosine similarity, particularly its dependency on the dimensionality of the vectors, leading to biased and less interpretable outcomes. To address this, we introduce the Dimension Insensitive Euclidean Metric (DIEM) which demonstrates superior robustness and generalizability across dimensions. DIEM maintains consistent variability and eliminates the biases observed in traditional metrics, making it a reliable tool for high-dimensional comparisons. This novel metric has the potential to replace cosine similarity, providing a more accurate and insightful method to analyze multidimensional data in fields ranging from neuromotor control to machine and deep learning.

arxiv情報

著者 Federico Tessari,Neville Hogan
発行日 2024-07-29 15:49:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, eess.SP パーマリンク