To Word Senses and Beyond: Inducing Concepts with Contextualized Language Models

要約

多義性と同義語は、語彙の曖昧さの 2 つの重要な相互関連側面です。
どちらの現象も語彙リソースで広く文書化されており、NLP で広範囲に研究され、専用システムにつながっていますが、実際の問題では独立して考慮されることがよくあります。
多義性を扱う多くのタスク (単語の意味の曖昧さの解消や誘導など) は単語の意味の役割に焦点を当てていますが、同義語の研究は概念、つまり辞書全体で共有される意味の研究に根ざしています。
この論文では、一連の概念をデータから直接定義する単語間のソフト クラスタリングを学習する教師なしタスクである概念誘導を紹介します。
このタスクは、単語感覚誘導を一般化します。
我々は、概念を誘導するためにローカルな補題中心のビューとグローバルなクロス語彙ビューの両方を活用する、概念誘導への 2 レベルのアプローチを提案します。
SemCor のアノテーション付きデータで得られたクラスタリングを評価し、良好なパフォーマンス (BCubed F1 が 0.60 以上) を取得しました。
私たちは、ローカルレベルとグローバルレベルが、私たちの環境で概念や感覚を誘発するのに相互に有益であることを発見しました。
最後に、誘導された概念を表す静的埋め込みを作成し、それを Word-in-Context タスクで使用して、最先端のパフォーマンスと同等のパフォーマンスを獲得します。

要約(オリジナル)

Polysemy and synonymy are two crucial interrelated facets of lexical ambiguity. While both phenomena are widely documented in lexical resources and have been studied extensively in NLP, leading to dedicated systems, they are often being considered independently in practical problems. While many tasks dealing with polysemy (e.g. Word Sense Disambiguiation or Induction) highlight the role of word’s senses, the study of synonymy is rooted in the study of concepts, i.e. meanings shared across the lexicon. In this paper, we introduce Concept Induction, the unsupervised task of learning a soft clustering among words that defines a set of concepts directly from data. This task generalizes Word Sense Induction. We propose a bi-level approach to Concept Induction that leverages both a local lemma-centric view and a global cross-lexicon view to induce concepts. We evaluate the obtained clustering on SemCor’s annotated data and obtain good performance (BCubed F1 above 0.60). We find that the local and the global levels are mutually beneficial to induce concepts and also senses in our setting. Finally, we create static embeddings representing our induced concepts and use them on the Word-in-Context task, obtaining competitive performance with the State-of-the-Art.

arxiv情報

著者 Bastien Liétard,Pascal Denis,Mikaella Keller
発行日 2024-12-19 15:30:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク