要約
クロスモーダル埋め込みは、マルチモーダルモデルの基礎を形成します。
ただし、クロスモーダル埋め込みを解釈するための視覚化方法は、主にPCAやT-SNEなどの従来の次元削減(DR)技術に限定されています。
これらのDRメソッドは、主に単一のモダリティ内の特徴分布に焦点を当てていますが、複数のモダリティにメトリック(クリップスコアなど)を組み込むことができませんでした。この論文では、プロプロジェクションスペースのメトリックランドスケープのメートル式の退行により、クロスモーダル埋め込みメトリックを視覚化するように設計された新しいDR技術を紹介します。
具体的には、AKRMAPは、ポストプロジェクションのカーネル回帰損失に導かれる監視された投影ネットワークを構築し、投影と共同で最適化できる適応的な一般化カーネルを採用しています。
このアプローチにより、AKRMAPは複雑なメトリック分布をキャプチャする視覚化を効率的に生成し、ズームやオーバーレイなどのインタラクティブな機能をサポートして、より深い探索のためにサポートします。
定量的実験は、Akrmapがより正確で信頼できる視覚化を生成する際に既存のDRメソッドを上回ることを示しています。
さらに、テキスト間モデルのクロスモーダル埋め込みを視覚化および比較する際のAkrmapの有効性を紹介します。
コードとデモはhttps://github.com/yilinye/akrmapで入手できます。
要約(オリジナル)
Cross-modal embeddings form the foundation for multi-modal models. However, visualization methods for interpreting cross-modal embeddings have been primarily confined to traditional dimensionality reduction (DR) techniques like PCA and t-SNE. These DR methods primarily focus on feature distributions within a single modality, whilst failing to incorporate metrics (e.g., CLIPScore) across multiple modalities.This paper introduces AKRMap, a new DR technique designed to visualize cross-modal embeddings metric with enhanced accuracy by learning kernel regression of the metric landscape in the projection space. Specifically, AKRMap constructs a supervised projection network guided by a post-projection kernel regression loss, and employs adaptive generalized kernels that can be jointly optimized with the projection. This approach enables AKRMap to efficiently generate visualizations that capture complex metric distributions, while also supporting interactive features such as zoom and overlay for deeper exploration. Quantitative experiments demonstrate that AKRMap outperforms existing DR methods in generating more accurate and trustworthy visualizations. We further showcase the effectiveness of AKRMap in visualizing and comparing cross-modal embeddings for text-to-image models. Code and demo are available at https://github.com/yilinye/AKRMap.
arxiv情報
著者 | Yilin Ye,Junchao Huang,Xingchen Zeng,Jiazhi Xia,Wei Zeng |
発行日 | 2025-05-20 17:52:03+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google