要約
GloVe や Word2Vec などの一般的な単語埋め込み手法は、点単位相互情報量 (PMI) 行列の因数分解に関連しています。
この論文では、コレスポンデンス分析 (CA) を PMI マトリックスの因数分解に関連付けます。
CA は特異値分解 (SVD) を使用する次元削減手法であり、CA が数学的に PMI 行列の重み付き因数分解に近いことを示します。
さらに、単語コンテキスト行列の因数分解に成功した CA の変形、つまり、エントリが平方根変換 (ROOT-CA) およびルートルート変換を受ける行列に適用される CA を紹介します。
(ルートルート-カリフォルニア州)。
この研究は従来の静的単語埋め込み手法に焦点を当てていますが、この論文の貢献を拡張するために、トランスベースのエンコーダ BERT、つまりコンテキスト単語埋め込みとこれらの従来の手法との比較も含めます。
CA ベースの方法、PMI ベースの方法、および BERT 間の経験的比較では、ROOT-CA および ROOTROOT-CA の全体的な結果が PMI ベースの方法よりわずかに優れており、BERT と競合できることが示されています。
要約(オリジナル)
Popular word embedding methods such as GloVe and Word2Vec are related to the factorization of the pointwise mutual information (PMI) matrix. In this paper, we link correspondence analysis (CA) to the factorization of the PMI matrix. CA is a dimensionality reduction method that uses singular value decomposition (SVD), and we show that CA is mathematically close to the weighted factorization of the PMI matrix. In addition, we present variants of CA that turn out to be successful in the factorization of the word-context matrix, i.e. CA applied to a matrix where the entries undergo a square-root transformation (ROOT-CA) and a root-root transformation (ROOTROOT-CA). While this study focuses on traditional static word embedding methods, to extend the contribution of this paper, we also include a comparison of transformer-based encoder BERT, i.e. contextual word embedding, with these traditional methods. An empirical comparison among CA- and PMI-based methods as well as BERT shows that overall results of ROOT-CA and ROOTROOT-CA are slightly better than those of the PMI-based methods and are competitive with BERT.
arxiv情報
| 著者 | Qianqian Qi,Ayoub Bagheri,David J. Hessen,Peter G. M. van der Heijden |
| 発行日 | 2024-11-08 09:35:29+00:00 |
| arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google