要約
この研究では、独立成分分析 (ICA) を利用して、単語または画像の埋め込み内の一貫した意味構造を明らかにします。
私たちのアプローチでは、主成分分析 (PCA) のホワイトニング プロセス後に残る異方性情報を利用して、事前トレーニングされたモデルの埋め込みから独立した意味論的コンポーネントを抽出します。
我々は、各埋め込みがいくつかの固有の解釈可能な軸の構成として表現できること、およびこれらの意味論的な軸がさまざまな言語、アルゴリズム、およびモダリティにわたって一貫性を保つことを実証します。
エンベディングの幾何学的パターンにおける普遍的な意味構造の発見により、エンベディングにおける表現の理解が深まります。
要約(オリジナル)
This study utilizes Independent Component Analysis (ICA) to unveil a consistent semantic structure within embeddings of words or images. Our approach extracts independent semantic components from the embeddings of a pre-trained model by leveraging anisotropic information that remains after the whitening process in Principal Component Analysis (PCA). We demonstrate that each embedding can be expressed as a composition of a few intrinsic interpretable axes and that these semantic axes remain consistent across different languages, algorithms, and modalities. The discovery of a universal semantic structure in the geometric patterns of embeddings enhances our understanding of the representations in embeddings.
arxiv情報
著者 | Hiroaki Yamagiwa,Momose Oyama,Hidetoshi Shimodaira |
発行日 | 2023-11-02 16:03:33+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google