Word Sense Induction with Knowledge Distillation from BERT

要約

タイトル:BERTからの知識蒸留を用いた単語意味認識

要約:
– 文脈に基づく言語モデルは言語理解タスクに普及しているが、リソースに制限があるシステムには適していない。
– 文脈に依存しない単語埋め込みは、このような状況で効率的な代替手段である。
– この論文では、事前に学習された言語モデル(BERT)から複数の単語意味を知識蒸留する2つの段階の方法を提案する。
– 単語の語義の文脈における注意機構を使用し、この語義情報をスキップグラムのようなフレームワークに合わせて複数の意味の埋め込みを作成する。
– BERTの出力層埋め込みから抽出された単語意味の分布を使用して、モデルにおける語義の曖昧さの機能を効果的に訓練する方法を示す。
– コンテキスト単語類似性と意味認識タスク上の実験により、この方法は複数のベンチマークデータセットで最新技術と同等または優れており、埋め込みベースのトピックモデル(ETM)による実験では、このようなマルチセンス埋め込みの下流アプリケーションでの利点が示された。

要約(オリジナル)

Pre-trained contextual language models are ubiquitously employed for language understanding tasks, but are unsuitable for resource-constrained systems. Noncontextual word embeddings are an efficient alternative in these settings. Such methods typically use one vector to encode multiple different meanings of a word, and incur errors due to polysemy. This paper proposes a two-stage method to distill multiple word senses from a pre-trained language model (BERT) by using attention over the senses of a word in a context and transferring this sense information to fit multi-sense embeddings in a skip-gram-like framework. We demonstrate an effective approach to training the sense disambiguation mechanism in our model with a distribution over word senses extracted from the output layer embeddings of BERT. Experiments on the contextual word similarity and sense induction tasks show that this method is superior to or competitive with state-of-the-art multi-sense embeddings on multiple benchmark data sets, and experiments with an embedding-based topic model (ETM) demonstrates the benefits of using this multi-sense embedding in a downstream application.

arxiv情報

著者 Anik Saha,Alex Gittens,Bulent Yener
発行日 2023-04-20 21:05:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CL パーマリンク