Estimating Text Similarity based on Semantic Concept Embeddings

要約

Word2Vec (W2V) 単語埋め込みは、使いやすさと精度の高さにより、単語、文、文書全体の意味表現や意味類似性の推定において大きな成功を収めています。
ただし、これらは表面表現から直接抽出されるという欠点があり、人間の思考プロセスを適切に表現しておらず、非常に曖昧な単語のパフォーマンスも低下します。
したがって、両方の欠点に対処する、MultiNet Semantic Network (SN) 形式主義に基づいた Semantic Concept Embeddings (CE) を提案します。
マーケティングターゲットグループ配布タスクの評価では、従来の単語埋め込みとセマンティック CE を組み合わせることで、予測ターゲットグループの精度を向上できることが示されました。

要約(オリジナル)

Due to their ease of use and high accuracy, Word2Vec (W2V) word embeddings enjoy great success in the semantic representation of words, sentences, and whole documents as well as for semantic similarity estimation. However, they have the shortcoming that they are directly extracted from a surface representation, which does not adequately represent human thought processes and also performs poorly for highly ambiguous words. Therefore, we propose Semantic Concept Embeddings (CE) based on the MultiNet Semantic Network (SN) formalism, which addresses both shortcomings. The evaluation on a marketing target group distribution task showed that the accuracy of predicted target groups can be increased by combining traditional word embeddings with semantic CEs.

arxiv情報

著者 Tim vor der Brück,Marc Pouly
発行日 2024-01-09 08:29:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク