要約
単語の意味論が時間の経過とともにどのように変化するかを測定すると、文化と視点がどのように変化するかについての理解が向上します。
時ダーニックワードの埋め込みは、このシフトを定量化するのに役立ちますが、以前の研究では、実質的に一時的に注釈されたコーパスを活用しました。
この作業では、過去25年間にわたる950万のクロアチアのニュース記事のコーパスを使用し、5年間に訓練されたスキップグラムワードの埋め込みを使用してセマンティックの変更を定量化します。
私たちの分析では、単語の埋め込みは、このタイムスパンの主要なトピックに関連する用語の言語シフトをキャプチャすることがわかります(Covid-19、欧州連合に加わるクロアチア、技術の進歩)。
また、2020年以降のエンコードからの埋め込みが、感情分析タスクの陽性の増加をエンコードし、同じ期間にわたってメンタルヘルスの低下を報告する研究を対比するという証拠を見つけます。
要約(オリジナル)
Measuring how semantics of words change over time improves our understanding of how cultures and perspectives change. Diachronic word embeddings help us quantify this shift, although previous studies leveraged substantial temporally annotated corpora. In this work, we use a corpus of 9.5 million Croatian news articles spanning the past 25 years and quantify semantic change using skip-gram word embeddings trained on five-year periods. Our analysis finds that word embeddings capture linguistic shifts of terms pertaining to major topics in this timespan (COVID-19, Croatia joining the European Union, technological advancements). We also find evidence that embeddings from post-2020 encode increased positivity in sentiment analysis tasks, contrasting studies reporting a decline in mental health over the same period.
arxiv情報
著者 | David Dukić,Ana Barić,Marko Čuljak,Josip Jukić,Martin Tutek |
発行日 | 2025-06-16 14:54:56+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google