A Semantic Distance Metric Learning approach for Lexical Semantic Change Detection


単語の一時的な意味変化の検出は、時間に敏感な予測を行う必要があるさまざまな NLP アプリケーションにとって重要なタスクです。
語彙意味変化検出 (SCD) タスクには、指定されたターゲット単語 $w$ が 2 つの異なるテキスト コーパス $C_1$ と $C_2$ の間で意味を変えるかどうかを予測することが含まれます。
この目的のために、既存の Word-in-Context (WiC) データセットを使用する教師あり 2 段階 SCD 手法を提案します。
最初の段階では、ターゲット単語 $w$ について、コーパスから選択された特定の文内の $w$ の意味を表す 2 つの感覚認識エンコーダーを学習します。
次に、第 2 段階では、$C_1$ と $C_2$ で出現するすべてのターゲット単語の意味表現を比較する、感覚認識距離メトリックを学習します。
SCD の複数のベンチマーク データセットに関する実験結果は、私たちが提案した手法が、複数の言語に対して以前に提案されたすべての SCD 手法を一貫して上回り、SCD の新しい最先端技術を確立したことを示しています。
ソースコードは https://github.com/a1da4/svp-sdml で入手できます。


Detecting temporal semantic changes of words is an important task for various NLP applications that must make time-sensitive predictions. Lexical Semantic Change Detection (SCD) task involves predicting whether a given target word, $w$, changes its meaning between two different text corpora, $C_1$ and $C_2$. For this purpose, we propose a supervised two-staged SCD method that uses existing Word-in-Context (WiC) datasets. In the first stage, for a target word $w$, we learn two sense-aware encoders that represent the meaning of $w$ in a given sentence selected from a corpus. Next, in the second stage, we learn a sense-aware distance metric that compares the semantic representations of a target word across all of its occurrences in $C_1$ and $C_2$. Experimental results on multiple benchmark datasets for SCD show that our proposed method consistently outperforms all previously proposed SCD methods for multiple languages, establishing a novel state-of-the-art for SCD. Interestingly, our findings imply that there are specialised dimensions that carry information related to semantic changes of words in the sense-aware embedding space. Source code is available at https://github.com/a1da4/svp-sdml .


著者 Taichi Aida,Danushka Bollegala
発行日 2024-04-10 07:15:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク