Detection of Non-recorded Word Senses in English and Swedish

要約

この研究は、英語とスウェーデン語での未知の感覚検出のタスクに取り組んでいます。
このタスクの主な目的は、特定の単語の使用法の意味が辞書に記載されているかどうかを判断することです。
この目的のために、数ショットのシナリオでこのタスクをモデル化できる事前トレーニング済みの Word-in-Context エンベッダーを使用して、感覚エントリが現代および歴史的コーパスの単語の使用法と比較されます。
さらに、ターゲットコーパスに対する人間によるアノテーションを使用してハイパーパラメータを調整し、5 分割交差検証を使用してモデルを評価します。
コーパスからのランダムなサンプルと比較して、私たちのモデルは、記録されていない意味での単語の使用の検出数を大幅に増やすことができます。

要約(オリジナル)

This study addresses the task of Unknown Sense Detection in English and Swedish. The primary objective of this task is to determine whether the meaning of a particular word usage is documented in a dictionary or not. For this purpose, sense entries are compared with word usages from modern and historical corpora using a pre-trained Word-in-Context embedder that allows us to model this task in a few-shot scenario. Additionally, we use human annotations on the target corpora to adapt hyperparameters and evaluate our models using 5-fold cross-validation. Compared to a random sample from a corpus, our model is able to considerably increase the detected number of word usages with non-recorded senses.

arxiv情報

著者 Jonathan Lautenschlager,Emma Sköldberg,Simon Hengchen,Dominik Schlechtweg
発行日 2024-12-12 15:06:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク