A Semantic Distance Metric Learning approach for Lexical Semantic Change Detection

要約

単語の一時的な意味変化の検出は、時間に敏感な予測を行う必要があるさまざまな NLP アプリケーションにとって重要なタスクです。
語彙意味変化検出 (SCD) タスクには、指定されたターゲット単語 $w$ が 2 つの異なるテキスト コーパス $C_1$ と $C_2$ の間で意味を変えるかどうかを予測することが含まれます。
この目的のために、既存の Word-in-Context (WiC) データセットを使用する教師あり 2 段階 SCD 手法を提案します。
最初の段階では、ターゲット単語 $w$ について、コーパスから選択された特定の文内の $w$ の意味を表す 2 つの感覚認識エンコーダーを学習します。
次に、第 2 段階では、$C_1$ と $C_2$ で出現するすべてのターゲット単語の意味表現を比較する、感覚認識距離メトリックを学習します。
SCD の複数のベンチマーク データセットに関する実験結果は、私たちが提案した手法が、複数の言語に対して以前に提案されたすべての SCD 手法を一貫して上回り、SCD の新しい最先端技術を確立したことを示しています。
興味深いことに、私たちの発見は、感覚認識埋め込み空間における単語の意味論的変化に関連する情報を運ぶ特殊な次元が存在することを示唆しています。
ソースコードは https://github.com/a1da4/svp-sdml で入手できます。

要約(オリジナル)

Detecting temporal semantic changes of words is an important task for various NLP applications that must make time-sensitive predictions. Lexical Semantic Change Detection (SCD) task involves predicting whether a given target word, $w$, changes its meaning between two different text corpora, $C_1$ and $C_2$. For this purpose, we propose a supervised two-staged SCD method that uses existing Word-in-Context (WiC) datasets. In the first stage, for a target word $w$, we learn two sense-aware encoders that represent the meaning of $w$ in a given sentence selected from a corpus. Next, in the second stage, we learn a sense-aware distance metric that compares the semantic representations of a target word across all of its occurrences in $C_1$ and $C_2$. Experimental results on multiple benchmark datasets for SCD show that our proposed method consistently outperforms all previously proposed SCD methods for multiple languages, establishing a novel state-of-the-art for SCD. Interestingly, our findings imply that there are specialised dimensions that carry information related to semantic changes of words in the sense-aware embedding space. Source code is available at https://github.com/a1da4/svp-sdml .

arxiv情報

著者 Taichi Aida,Danushka Bollegala
発行日 2024-04-10 07:15:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク