Surpassing Cosine Similarity for Multidimensional Comparisons: Dimension Insensitive Euclidean Metric (DIEM)

要約

計算能力とハードウェア効率の進歩により、ますます複雑かつ高次元の問題に取り組むことが可能になりました。
人工知能 (AI) はさまざまな科学技術分野で目覚ましい成果を上げていますが、これらの高次元のソリューションの解釈可能性は依然として課題です。
この文脈における重要な問題は、主成分分析 (PCA)、特異値分解 (SVD)、K 平均法クラスタリングなどの手法で不可欠な多次元量の比較です。
このような比較には、コサイン類似度、ユークリッド距離、マンハッタン距離などの一般的な指標がよく使用されます。たとえば、人間の運動制御システムの筋肉の相乗効果などです。
ただし、次元が増加するにつれて、それらの適用可能性と解釈可能性は減少します。
このペーパーでは、これら 3 つの広く使用されている指標に対する次元性の影響を包括的に分析します。
私たちの結果は、コサイン類似性の重大な制限、特にベクトルの次元への依存性を明らかにし、偏った解釈の難しい結果をもたらします。
これに対処するために、ユークリッド距離から導出される次元非依存ユークリッド メトリック (DIEM) を導入します。これは、さまざまな次元にわたって優れた堅牢性と一般化可能性を実証します。
DIEM は一貫した変動性を維持し、従来の指標で観察されたバイアスを排除するため、高次元の比較においてより信頼性の高いツールになります。
この新しい指標はコサイン類似度に代わる可能性があり、神経運動制御から機械学習、深層学習に至るまでの分野で多次元データを分析するためのより正確で洞察力に富んだ方法を提供します。

要約(オリジナル)

The advancement in computational power and hardware efficiency has enabled the tackling of increasingly complex and high-dimensional problems. While artificial intelligence (AI) has achieved remarkable results in various scientific and technological fields, the interpretability of these high-dimensional solutions remains challenging. A critical issue in this context is the comparison of multidimensional quantities, which is essential in techniques like Principal Component Analysis (PCA), Singular Value Decomposition (SVD), and k-means clustering. Common metrics such as cosine similarity, Euclidean distance, and Manhattan distance are often used for such comparisons – for example in muscular synergies of the human motor control system. However, their applicability and interpretability diminish as dimensionality increases. This paper provides a comprehensive analysis of the effects of dimensionality on these three widely used metrics. Our results reveal significant limitations of cosine similarity, particularly its dependency on the dimensionality of the vectors, leading to biased and less interpretable outcomes. To address this, we introduce the Dimension Insensitive Euclidean Metric (DIEM), derived from the Euclidean distance, which demonstrates superior robustness and generalizability across varying dimensions. DIEM maintains consistent variability and eliminates the biases observed in traditional metrics, making it a more reliable tool for high-dimensional comparisons. This novel metric has the potential to replace cosine similarity, providing a more accurate and insightful method to analyze multidimensional data in fields ranging from neuromotor control to machine learning and deep learning.

arxiv情報

著者 Federico Tessari,Neville Hogan
発行日 2024-07-11 16:00:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, eess.SP パーマリンク