Can Word Sense Distribution Detect Semantic Changes of Words?

要約

単語の意味変更検出 (SCD) は、時間に敏感な予測を行う必要があるさまざまな NLP アプリケーションにとって重要なタスクです。
いくつかの単語は、新しい意味を表現するために新しい方法で時間の経過とともに使用され、これらの新しい意味は既存の単語の新しい意味として確立されます。
一方、Word Sense Disambiguation (WSD) メソッドは、曖昧な単語が出現するコンテキストに応じて、曖昧な単語をセンス ID に関連付けます。
WSD と SCD のこの関係を考慮して、異なるタイム ステップで収集された 2 つのコーパス間で対象の単語の意味が変化するかどうかを、各コーパス内の単語の意味の分布を比較することによって予測する可能性を検討します。
この目的のために、事前学習済みの静的センス埋め込みを使用して、コーパス内のターゲット単語の各出現にセンス ID で自動的に注釈を付けます。
次に、指定されたコーパス内のターゲット単語のセンス ID の分布を計算します。
最後に、さまざまな発散または距離の尺度を使用して、指定された 2 つのコーパスにわたるターゲット単語の意味上の変化を定量化します。
SemEval 2020 タスク 1 データセットに関する実験結果は、語義分布を使用して英語、ドイツ語、スウェーデン語、ラテン語の単語の意味変化を正確に予測できることを示しています。

要約(オリジナル)

Semantic Change Detection (SCD) of words is an important task for various NLP applications that must make time-sensitive predictions. Some words are used over time in novel ways to express new meanings, and these new meanings establish themselves as novel senses of existing words. On the other hand, Word Sense Disambiguation (WSD) methods associate ambiguous words with sense ids, depending on the context in which they occur. Given this relationship between WSD and SCD, we explore the possibility of predicting whether a target word has its meaning changed between two corpora collected at different time steps, by comparing the distributions of senses of that word in each corpora. For this purpose, we use pretrained static sense embeddings to automatically annotate each occurrence of the target word in a corpus with a sense id. Next, we compute the distribution of sense ids of a target word in a given corpus. Finally, we use different divergence or distance measures to quantify the semantic change of the target word across the two given corpora. Our experimental results on SemEval 2020 Task 1 dataset show that word sense distributions can be accurately used to predict semantic changes of words in English, German, Swedish and Latin.

arxiv情報

著者 Xiaohang Tang,Yi Zhou,Taichi Aida,Procheta Sen,Danushka Bollegala
発行日 2023-10-16 13:41:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク