Estimation of embedding vectors in high dimensions

要約

埋め込みは、多くの機械学習モデル、特に自然言語処理における基本的な初期機能抽出ステップです。
埋め込みは、埋め込み空間のある程度のメトリックによって互いに近いベクトルに類似したトークンがマッピングされる低次元空間にデータトークンをマッピングしようとします。
基本的な質問は、そのような埋め込みをどの程度十分に学ぶことができるかということです。
この問題を研究するために、ランダム変数の相関が埋め込みの類似性に関連する「真の」が不明な埋め込みがある離散データの単純な確率モデルを検討します。
このモデルでは、埋め込みは、低ランクの近似メッセージパッシング(AMP)メソッドのバリアントによって学習できることが示されています。
AMPアプローチにより、特定の高次元制限における推定の精度を正確に予測できます。
特に、方法論は、値ごとのサンプル数、用語の頻度、および確率分布の埋め込み相関の強度などの重要なパラメーターの関係に関する洞察を提供します。
理論的な調査結果は、合成データと実際のテキストデータの両方のシミュレーションによって検証されています。

要約(オリジナル)

Embeddings are a basic initial feature extraction step in many machine learning models, particularly in natural language processing. An embedding attempts to map data tokens to a low-dimensional space where similar tokens are mapped to vectors that are close to one another by some metric in the embedding space. A basic question is how well can such embedding be learned? To study this problem, we consider a simple probability model for discrete data where there is some ‘true’ but unknown embedding where the correlation of random variables is related to the similarity of the embeddings. Under this model, it is shown that the embeddings can be learned by a variant of low-rank approximate message passing (AMP) method. The AMP approach enables precise predictions of the accuracy of the estimation in certain high-dimensional limits. In particular, the methodology provides insight on the relations of key parameters such as the number of samples per value, the frequency of the terms, and the strength of the embedding correlation on the probability distribution. Our theoretical findings are validated by simulations on both synthetic data and real text data.

arxiv情報

著者 Golara Ahmadi Azar,Melika Emami,Alyson Fletcher,Sundeep Rangan
発行日 2025-04-09 17:46:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.IT, cs.LG, math.IT, stat.ML パーマリンク