要約
言葉の意味は時間の経過とともに、また領域間でも変化します。
単語の意味上の変化を検出することは、時間に敏感な予測を行う必要があるさまざまな NLP アプリケーションにとって重要なタスクです。
与えられたターゲット単語 $w$ が 2 つの異なるテキストコーパス $\mathcal{C}_1$ と $\mathcal{C}_2$ の間でその意味を変えるかどうかを予測する問題を考えます。
この目的のために、$\textit{Swapping-based Semantic Change Detection}$ (SSCD) を提案します。これは、$\mathcal{C}_1$ と $\mathcal{C}_2$ の間でコンテキストをランダムに交換する教師なし手法です。
$が発生します。
次に、$\mathcal{C}_1$ と $\mathcal の出現コンテキストにおける $w$ の意味を表す、事前学習済みのマスク言語モデル (MLM) から取得された $w$ の文脈化された単語埋め込みの分布を調べます。
{C}_2$。
直観的に、$w$ の意味が $\mathcal{C}_1$ と $\mathcal{C}_2$ の間で変わらない場合、$w$ の文脈化された単語埋め込みの分布は前後で同じままであると予想されます。
このランダムな交換プロセスの後。
そのシンプルさにもかかわらず、私たちが提案するコンテキスト交換手法は、微調整なしで事前トレーニング済みの MLM を使用した場合でも、4 つの言語 (英語、ドイツ語、スウェーデン語、ラテン語) および異なる期間 (長期間) の単語の意味変化を正確に予測できることを示しています。
50年と約5年)。
さらに、私たちの方法は、英語の意味変更予測タスクの強力なベースラインと比較して、大幅なパフォーマンスの向上を達成します。
ソースコードは https://github.com/a1da4/svp-swap で入手できます。
要約(オリジナル)
Meanings of words change over time and across domains. Detecting the semantic changes of words is an important task for various NLP applications that must make time-sensitive predictions. We consider the problem of predicting whether a given target word, $w$, changes its meaning between two different text corpora, $\mathcal{C}_1$ and $\mathcal{C}_2$. For this purpose, we propose $\textit{Swapping-based Semantic Change Detection}$ (SSCD), an unsupervised method that randomly swaps contexts between $\mathcal{C}_1$ and $\mathcal{C}_2$ where $w$ occurs. We then look at the distribution of contextualised word embeddings of $w$, obtained from a pretrained masked language model (MLM), representing the meaning of $w$ in its occurrence contexts in $\mathcal{C}_1$ and $\mathcal{C}_2$. Intuitively, if the meaning of $w$ does not change between $\mathcal{C}_1$ and $\mathcal{C}_2$, we would expect the distributions of contextualised word embeddings of $w$ to remain the same before and after this random swapping process. Despite its simplicity, we demonstrate that even by using pretrained MLMs without any fine-tuning, our proposed context swapping method accurately predicts the semantic changes of words in four languages (English, German, Swedish, and Latin) and across different time spans (over 50 years and about five years). Moreover, our method achieves significant performance improvements compared to strong baselines for the English semantic change prediction task. Source code is available at https://github.com/a1da4/svp-swap .
arxiv情報
著者 | Taichi Aida,Danushka Bollegala |
発行日 | 2023-10-16 13:39:44+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google