Comparative Analysis of Document-Level Embedding Methods for Similarity Scoring on Shakespeare Sonnets and Taylor Swift Lyrics


この研究では、2 つの対照的なテキスト ドメインにわたるドキュメント類似性スコアリングのための TF-IDF 重み付け、平均 Word2Vec 埋め込み、および BERT 埋め込みのパフォーマンスを評価します。
この調査結果は、特にクロスドメイン比較において、TF-IDF が語彙の重複に依存していることと、Word2Vec の優れた意味論的一般化を強調しています。
BERT は、おそらくドメイン固有の微調整が不十分なため、困難なドメインではパフォーマンスが低下します。


This study evaluates the performance of TF-IDF weighting, averaged Word2Vec embeddings, and BERT embeddings for document similarity scoring across two contrasting textual domains. By analysing cosine similarity scores, the methods’ strengths and limitations are highlighted. The findings underscore TF-IDF’s reliance on lexical overlap and Word2Vec’s superior semantic generalisation, particularly in cross-domain comparisons. BERT demonstrates lower performance in challenging domains, likely due to insufficient domainspecific fine-tuning.


著者 Klara Kramer
発行日 2024-12-23 13:20:06+00:00
arxiv_id(pdf)



カテゴリー: cs.CL, cs.IR パーマリンク