要約
本や転写物などの現実世界の長いテキストにおける意味上の変化のパターンを分析することは、文体、認知、言語の観点から興味深いものです。
また、テキストの分割、文書の要約、意味上の新規性の検出などのアプリケーションにも役立ちます。
最近、文埋め込みのためのいくつかのベクトル空間手法が登場したことで、このような分析が可能になりました。
ただし、これは、さまざまな方法によって生成される意味表現自体がどの程度一貫性があり、意味があるのかという問題を引き起こします。
この論文では、連続する文間の意味的類似性の時系列と、複数の文献のペアごとの文類似性の行列を介して、いくつかの最近の文埋め込み手法を比較します。
ターゲットタスクと厳選されたデータセットを使用して文埋め込み方法を比較した以前の研究とは対照的に、私たちのアプローチは「実際の」方法の評価を提供します。
検討した文埋め込み手法のほとんどは、特定の文書内の意味的類似性の相関性の高いパターンを推論しますが、興味深い違いを示していることがわかりました。
要約(オリジナル)
Analyzing the pattern of semantic variation in long real-world texts such as books or transcripts is interesting from the stylistic, cognitive, and linguistic perspectives. It is also useful for applications such as text segmentation, document summarization, and detection of semantic novelty. The recent emergence of several vector-space methods for sentence embedding has made such analysis feasible. However, this raises the issue of how consistent and meaningful the semantic representations produced by various methods are in themselves. In this paper, we compare several recent sentence embedding methods via time-series of semantic similarity between successive sentences and matrices of pairwise sentence similarity for multiple books of literature. In contrast to previous work using target tasks and curated datasets to compare sentence embedding methods, our approach provides an evaluation of the methods ‘in the wild’. We find that most of the sentence embedding methods considered do infer highly correlated patterns of semantic similarity in a given document, but show interesting differences.
arxiv情報
著者 | Deven M. Mistry,Ali A. Minai |
発行日 | 2023-08-08 23:31:10+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google