A comparison of correspondence analysis with PMI-based word embedding methods

要約

GloVe や Word2Vec などの一般的な単語埋め込み手法は、点単位相互情報量 (PMI) 行列の因数分解に関連しています。
この論文では、コレスポンデンス分析 (CA) を PMI マトリックスの因数分解に関連付けます。
CA は特異値分解 (SVD) を使用する次元削減手法であり、CA が数学的に PMI 行列の重み付き因数分解に近いことを示します。
さらに、単語コンテキスト行列の因数分解に成功することが判明した CA の変形、つまりエントリが平方根変換 (ROOT-CA) およびルートルート変換を受ける行列に適用される CA を紹介します。
(ルートルート-カリフォルニア州)。
CA ベースの方法と PMI ベースの方法を経験的に比較すると、ROOT-CA と ROOTROOT-CA の全体的な結果は PMI ベースの方法よりわずかに優れていることがわかります。

要約(オリジナル)

Popular word embedding methods such as GloVe and Word2Vec are related to the factorization of the pointwise mutual information (PMI) matrix. In this paper, we link correspondence analysis (CA) to the factorization of the PMI matrix. CA is a dimensionality reduction method that uses singular value decomposition (SVD), and we show that CA is mathematically close to the weighted factorization of the PMI matrix. In addition, we present variants of CA that turn out to be successful in the factorization of the word-context matrix, i.e. CA applied to a matrix where the entries undergo a square-root transformation (ROOT-CA) and a root-root transformation (ROOTROOT-CA). An empirical comparison among CA- and PMI-based methods shows that overall results of ROOT-CA and ROOTROOT-CA are slightly better than those of the PMI-based methods.

arxiv情報

著者 Qianqian Qi,David J. Hessen,Peter G. M. van der Heijden
発行日 2024-05-31 15:04:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク