Quantifying the Dissimilarity of Texts

要約

タイトル:テキストの非類似度を定量化する

要約:
– テキストの非類似度比較は、自然言語処理において重要なタスクである。例えば、意味的な情報検索、トピック分類、文書クラスタリングなどである。
– 本論文では、テキストの語彙、単語頻度分布、ベクトル埋め込み表現を用いた3つの異なる表現方法と、著者、主題、時期別にテキストをクラスタリングする3つのシンプルなタスクを比較した。
– Project Gutenbergデータベースを用いて、単語の頻度に対して一般化Jensen-Shannon分布が全タスクにおいて優れたパフォーマンスを示し、ベクトル埋め込み表現に基づく$d$は、小規模なテキストに対してより強力なパフォーマンスを示すことがわかった。最適なアプローチの選択は、タスクに依存するということも示された。
– また、$h$という因子によって、2つのテキストの長さが変化する場合の異なる$d$の振る舞いを数値的に分析し、推定値のバイアスを明示的に計算した。その結果、ジャッカード距離は一貫しておらず、Jensen-Shannon分布や埋め込みベースのアプローチは$h$の変化にも強く、ロバストであることがわかった。

要約(オリジナル)

Quantifying the dissimilarity of two texts is an important aspect of a number of natural language processing tasks, including semantic information retrieval, topic classification, and document clustering. In this paper, we compared the properties and performance of different dissimilarity measures $D$ using three different representations of texts — vocabularies, word frequency distributions, and vector embeddings — and three simple tasks — clustering texts by author, subject, and time period. Using the Project Gutenberg database, we found that the generalised Jensen–Shannon divergence applied to word frequencies performed strongly across all tasks, that $D$’s based on vector embedding representations led to stronger performance for smaller texts, and that the optimal choice of approach was ultimately task-dependent. We also investigated, both analytically and numerically, the behaviour of the different $D$’s when the two texts varied in length by a factor $h$. We demonstrated that the (natural) estimator of the Jaccard distance between vocabularies was inconsistent and computed explicitly the $h$-dependency of the bias of the estimator of the generalised Jensen–Shannon divergence applied to word frequencies. We also found numerically that the Jensen–Shannon divergence and embedding-based approaches were robust to changes in $h$, while the Jaccard distance was not.

arxiv情報

著者 Benjamin Shade,Eduardo G. Altmann
発行日 2023-05-03 22:59:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cond-mat.stat-mech, cs.CL, physics.soc-ph パーマリンク