Semantic Change Detection for the Romanian Language

要約

自動意味変更手法は、通時的なコーパスにおける単語の使用法を分析することにより、時間の経過とともに単語の意味に現れる変化を特定しようとします。
この論文では、実際の英語とルーマニア語のデータセット上で、静的および文脈依存的な単語埋め込みモデル、つまり Word2Vec と ELMo を作成するためのさまざまな戦略を分析します。
パイプラインをテストしてモデルのパフォーマンスを判断するために、まず英語のデータセット (SEMEVAL-CCOHA) で両方の単語埋め込みモデルを評価します。
その後、ルーマニア語のデータセットに焦点を当てて実験を行い、意味の獲得と喪失など、このリソースの少ない言語における意味論的な変化のさまざまな側面を強調します。
実験結果は、コーパスに応じて、考慮すべき最も重要な要素はモデルの選択と意味的変化を検出するためのスコアを計算するための距離であることを示しています。

要約(オリジナル)

Automatic semantic change methods try to identify the changes that appear over time in the meaning of words by analyzing their usage in diachronic corpora. In this paper, we analyze different strategies to create static and contextual word embedding models, i.e., Word2Vec and ELMo, on real-world English and Romanian datasets. To test our pipeline and determine the performance of our models, we first evaluate both word embedding models on an English dataset (SEMEVAL-CCOHA). Afterward, we focus our experiments on a Romanian dataset, and we underline different aspects of semantic changes in this low-resource language, such as meaning acquisition and loss. The experimental results show that, depending on the corpus, the most important factors to consider are the choice of model and the distance to calculate a score for detecting semantic change.

arxiv情報

著者 Ciprian-Octavian Truică,Victor Tudose,Elena-Simona Apostol
発行日 2023-08-23 13:37:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク