To Word Senses and Beyond: Inducing Concepts with Contextualized Language Models

要約

多義性と同義語は、語彙の曖昧さの 2 つの重要な相互関連側面です。
どちらの現象も NLP で広範囲に研究され、専用システムにつながっていますが、多くの場合、独立して考慮されています。
多義性を扱う多くのタスク (語義の曖昧さ回避や誘導など) では単語の意味の役割が強調されていますが、同義語の研究は概念、つまり辞書全体で共有される意味の研究に根ざしています。
この論文では、一連の概念をデータから直接定義する単語間のソフト クラスタリングを学習する教師なしタスクである概念誘導を紹介します。
このタスクは、単語感覚誘導のタスクを一般化します。
我々は、概念を誘導するためにローカルな補題中心の視点とグローバルな語彙横断的な視点の両方を活用する、概念誘導への 2 レベルのアプローチを提案します。
SemCor の注釈付きデータで得られたクラスタリングを評価し、良好なパフォーマンス (BCubed F1 が 0.60 以上) を取得しました。
私たちは、ローカルレベルとグローバルレベルが、私たちの環境で概念や感覚を誘発するのに相互に有益であることを発見しました。
最後に、誘導された概念を表す静的埋め込みを作成し、それを Word-in-Context タスクで使用して、最先端のパフォーマンスと同等のパフォーマンスを獲得します。

要約(オリジナル)

Polysemy and synonymy are two crucial interrelated facets of lexical ambiguity. While both phenomena have been studied extensively in NLP, leading to dedicated systems, they are often been considered independently. While many tasks dealing with polysemy (e.g. Word Sense Disambiguiation or Induction) highlight the role of a word’s senses, the study of synonymy is rooted in the study of concepts, i.e. meaning shared across the lexicon. In this paper, we introduce Concept Induction, the unsupervised task of learning a soft clustering among words that defines a set of concepts directly from data. This task generalizes that of Word Sense Induction. We propose a bi-level approach to Concept Induction that leverages both a local lemma-centric view and a global cross-lexicon perspective to induce concepts. We evaluate the obtained clustering on SemCor’s annotated data and obtain good performances (BCubed F1 above 0.60). We find that the local and the global levels are mutually beneficial to induce concepts and also senses in our setting. Finally, we create static embeddings representing our induced concepts and use them on the Word-in-Context task, obtaining competitive performances with the State-of-the-Art.

arxiv情報

著者 Bastien Liétard,Pascal Denis,Mikaella Keller
発行日 2024-06-28 17:07:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク