Detection of Non-recorded Word Senses in English and Swedish


この目的のために、数ショットのシナリオでこのタスクをモデル化できる事前トレーニング済みの Word-in-Context エンベッダーを使用して、感覚エントリが現代および歴史的コーパスの単語の使用法と比較されます。
さらに、ターゲットコーパスに対する人間によるアノテーションを使用してハイパーパラメータを調整し、5 分割交差検証を使用してモデルを評価します。


This study addresses the task of Unknown Sense Detection in English and Swedish. The primary objective of this task is to determine whether the meaning of a particular word usage is documented in a dictionary or not. For this purpose, sense entries are compared with word usages from modern and historical corpora using a pre-trained Word-in-Context embedder that allows us to model this task in a few-shot scenario. Additionally, we use human annotations on the target corpora to adapt hyperparameters and evaluate our models using 5-fold cross-validation. Compared to a random sample from a corpus, our model is able to considerably increase the detected number of word usages with non-recorded senses.


著者 Jonathan Lautenschlager,Emma Sköldberg,Simon Hengchen,Dominik Schlechtweg
発行日 2024-12-12 15:06:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, Google

カテゴリー: cs.CL パーマリンク