要約
通時的な語彙意味変更検出 (LSCD) のタスクでは、大規模言語モデルによって生成された文脈化された単語定義を意味表現として使用します。
つまり、生成された定義を「意味」として利用し、比較対象となる2つの期間におけるその分布を比較することで、対象単語の変化スコアを取得する。
5 つのデータセットと 3 つの言語の素材について、生成された定義が確かに具体的かつ一般的であり、時間の経過に伴う意味上の変化の程度によって単語のセットをランク付けするのに十分なシグナルを伝えることができることを示します。
私たちのアプローチは、以前の教師なしセンスベースの LSCD 手法と同等かそれを上回っています。
同時に、解釈可能性を維持し、意味としての個別の定義の観点から、特定の変化の背後にある理由を検査することができます。
これは、説明可能な意味変更モデリングの方向へのもう 1 つのステップです。
要約(オリジナル)
We use contextualized word definitions generated by large language models as semantic representations in the task of diachronic lexical semantic change detection (LSCD). In short, generated definitions are used as `senses’, and the change score of a target word is retrieved by comparing their distributions in two time periods under comparison. On the material of five datasets and three languages, we show that generated definitions are indeed specific and general enough to convey a signal sufficient to rank sets of words by the degree of their semantic change over time. Our approach is on par with or outperforms prior non-supervised sense-based LSCD methods. At the same time, it preserves interpretability and allows to inspect the reasons behind a specific shift in terms of discrete definitions-as-senses. This is another step in the direction of explainable semantic change modeling.
arxiv情報
著者 | Mariia Fedorova,Andrey Kutuzov,Yves Scherrer |
発行日 | 2024-07-31 16:20:45+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google