Comparative Analysis of Document-Level Embedding Methods for Similarity Scoring on Shakespeare Sonnets and Taylor Swift Lyrics

要約

この研究では、2 つの対照的なテキスト ドメインにわたるドキュメント類似性スコアリングのための TF-IDF 重み付け、平均 Word2Vec 埋め込み、および BERT 埋め込みのパフォーマンスを評価します。
コサイン類似度スコアを分析することにより、この方法の長所と限界が強調されます。
この調査結果は、特にクロスドメイン比較において、TF-IDF が語彙の重複に依存していることと、Word2Vec の優れた意味論的一般化を強調しています。
BERT は、おそらくドメイン固有の微調整が不十分なため、困難なドメインではパフォーマンスが低下します。

要約(オリジナル)

This study evaluates the performance of TF-IDF weighting, averaged Word2Vec embeddings, and BERT embeddings for document similarity scoring across two contrasting textual domains. By analysing cosine similarity scores, the methods’ strengths and limitations are highlighted. The findings underscore TF-IDF’s reliance on lexical overlap and Word2Vec’s superior semantic generalisation, particularly in cross-domain comparisons. BERT demonstrates lower performance in challenging domains, likely due to insufficient domainspecific fine-tuning.

arxiv情報

著者 Klara Kramer
発行日 2024-12-23 13:20:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.IR パーマリンク