要約
これは、文ベクトルと文の意味論的な意味の間の相関関係を導出する一貫した方法を調査する経験的研究です。
まず、GPT-3、Word2Vec、Sentence-BERT を含む 3 つの最先端の単語/文埋め込み手法を使用して、プレーン テキストの文文字列を高次元空間に埋め込みました。
次に、埋め込み空間内の 2 つの文ベクトルの可能な組み合わせ間のペアごとの距離を計算し、それらを行列にマッピングします。
各距離行列に基づいて、埋め込み空間内の他の文ベクトルに対する文ベクトルの距離の相関を計算します。
次に、距離行列の各ペアの相関を計算します。
異なる埋め込み空間における同じ文の相関と、同じ埋め込み空間における異なる文の相関を観察しました。
これらの観察は私たちの仮説と一致しており、私たちを次の段階に導きます。
要約(オリジナル)
This is an experiential study of investigating a consistent method for deriving the correlation between sentence vector and semantic meaning of a sentence. We first used three state-of-the-art word/sentence embedding methods including GPT-3, Word2Vec, and Sentence-BERT, to embed plain text sentence strings into high dimensional spaces. Then we compute the pairwise distance between any possible combination of two sentence vectors in an embedding space and map them into a matrix. Based on each distance matrix, we compute the correlation of distances of a sentence vector with respect to the other sentence vectors in an embedding space. Then we compute the correlation of each pair of the distance matrices. We observed correlations of the same sentence in different embedding spaces and correlations of different sentences in the same embedding space. These observations are consistent with our hypothesis and take us to the next stage.
arxiv情報
著者 | Tianyi Sun,Bradley Nelson |
発行日 | 2023-08-08 12:12:55+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google