Towards an Explainable Comparison and Alignment of Feature Embeddings

要約

文献ではいくつかの特徴埋め込みモデルが開発されていますが、これらの埋め込みの比較は、分類関連のダウンストリームアプリケーションでの数値性能に大きく焦点を当てています。
ただし、異なる埋め込みの解釈可能な比較には、埋め込みスペース内でクラスター化されたサンプルグループ間の不一致を特定して分析する必要があります。
この作業では、埋め込みデータを比較し、参照データセットのクラスタリングの違いを特定するために、\ emph {Spectral Pailwise Embedding比較(SPEC)}フレームワークを提案します。
私たちのアプローチでは、2つの埋め込みから派生したカーネルマトリックスを調べ、違いカーネルマトリックスの固有カムをレバレッジして、2つの埋め込みによって異なる方法でキャプチャされるサンプルクラスターを検出します。
このカーネルベースのアプローチのスケーラブルな実装を提示します。これは、サンプルサイズとともに直線的に成長する計算の複雑さを示します。
さらに、このフレームワークを使用して最適化問題を導入して2つの埋め込みを整列させ、1つの埋め込みで識別されたクラスターも他のモデルでキャプチャされるようにします。
ImagenetやMS-Cocoなどの大規模なデータセットの埋め込みを比較および整列させるために、仕様のアプリケーションを示す数値結果を提供します。
このコードは[https://github.com/mjalali/embedding-comparison](github.com/mjalali/embedding-comparison)で入手できます。

要約(オリジナル)

While several feature embedding models have been developed in the literature, comparisons of these embeddings have largely focused on their numerical performance in classification-related downstream applications. However, an interpretable comparison of different embeddings requires identifying and analyzing mismatches between sample groups clustered within the embedding spaces. In this work, we propose the \emph{Spectral Pairwise Embedding Comparison (SPEC)} framework to compare embeddings and identify their differences in clustering a reference dataset. Our approach examines the kernel matrices derived from two embeddings and leverages the eigendecomposition of the difference kernel matrix to detect sample clusters that are captured differently by the two embeddings. We present a scalable implementation of this kernel-based approach, with computational complexity that grows linearly with the sample size. Furthermore, we introduce an optimization problem using this framework to align two embeddings, ensuring that clusters identified in one embedding are also captured in the other model. We provide numerical results demonstrating the SPEC’s application to compare and align embeddings on large-scale datasets such as ImageNet and MS-COCO. The code is available at [https://github.com/mjalali/embedding-comparison](github.com/mjalali/embedding-comparison).

arxiv情報

著者 Mohammad Jalali,Bahar Dibaei Nia,Farzan Farnia
発行日 2025-06-06 16:50:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG, math.SP パーマリンク