Measuring similarity between embedding spaces using induced neighborhood graphs

要約

深層学習技術は、項目間の意味論的な類似性を捉える埋め込みスペースの生成に優れています。
多くの場合、これらの表現はペアになっており、アナロジー (同じドメイン内のペア) やクロスモダリティ (ドメイン間のペア) による実験が可能になります。
これらの実験は、埋め込み空間のジオメトリに関する特定の仮定に基づいており、トレーニング データセット内の埋め込みペア間の位置関係を外挿することでペアのアイテムを見つけることができ、新しい類似点の発見やマルチモーダル ゼロショット分類などのタスクが可能になります。
この研究では、ペアになっている項目表現間の類似性を評価するための指標を提案します。
私たちの提案は、各表現の最近傍誘導グラフ間の構造的類似性に基づいて構築されており、異なる距離メトリックと異なる近傍サイズに基づいて空間を比較するように構成できます。
私たちの提案を使用して、異なるスケールで同様の構造を識別できることを示します。これは、Centered Kernel Alignment (CKA) などのカーネル手法では達成が困難です。
さらに、GloVe 埋め込みを使用したアナロジー タスクと、CLIP 埋め込みを使用した CIFAR-100 データセットでのゼロショット分類の 2 つのケース スタディを使用して、この方法を説明します。
私たちの結果は、類似タスクとゼロショット分類タスクの両方の精度が埋め込み類似度と相関していることを示しています。
これらの発見は、これらのタスクにおけるパフォーマンスの違いを説明するのに役立ち、将来のペア埋め込みモデルの設計の改善につながる可能性があります。

要約(オリジナル)

Deep Learning techniques have excelled at generating embedding spaces that capture semantic similarities between items. Often these representations are paired, enabling experiments with analogies (pairs within the same domain) and cross-modality (pairs across domains). These experiments are based on specific assumptions about the geometry of embedding spaces, which allow finding paired items by extrapolating the positional relationships between embedding pairs in the training dataset, allowing for tasks such as finding new analogies, and multimodal zero-shot classification. In this work, we propose a metric to evaluate the similarity between paired item representations. Our proposal is built from the structural similarity between the nearest-neighbors induced graphs of each representation, and can be configured to compare spaces based on different distance metrics and on different neighborhood sizes. We demonstrate that our proposal can be used to identify similar structures at different scales, which is hard to achieve with kernel methods such as Centered Kernel Alignment (CKA). We further illustrate our method with two case studies: an analogy task using GloVe embeddings, and zero-shot classification in the CIFAR-100 dataset using CLIP embeddings. Our results show that accuracy in both analogy and zero-shot classification tasks correlates with the embedding similarity. These findings can help explain performance differences in these tasks, and may lead to improved design of paired-embedding models in the future.

arxiv情報

著者 Tiago F. Tavares,Fabio Ayres,Paris Smaragdis
発行日 2024-11-13 15:22:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク