要約
事前トレーニングされた言語モデル (PLM) は、単語の文脈化された表現を学習する能力により、多数の NLP タスクで一貫して成功することが示されています (Ethayarajh、2019)。
BERT (Devlin et al., 2018)、ELMo (Peters et al., 2018) およびその他の PLM は、単一のベクトル表現で単語のすべての意味をエンコードする静的な単語埋め込みとは対照的に、テキストのコンテキストを介して単語の意味をエンコードします。
この研究では、PLM 単語の文脈化が正確にどこで発生するかを特定することを目的とした研究を紹介します。
この単語の意味の変換の位置を見つけるために、基本的な BERT のケースなし 12 層アーキテクチャ (Devlin et al., 2018)、追加の文隣接目標でトレーニングされたマスクされた言語モデル、定性的および質的手法を使用して、多義語の表現を調査します。
定量的な対策。
要約(オリジナル)
Pre-trained Language Models (PLMs) have shown to be consistently successful in a plethora of NLP tasks due to their ability to learn contextualized representations of words (Ethayarajh, 2019). BERT (Devlin et al., 2018), ELMo (Peters et al., 2018) and other PLMs encode word meaning via textual context, as opposed to static word embeddings, which encode all meanings of a word in a single vector representation. In this work, we present a study that aims to localize where exactly in a PLM word contextualization happens. In order to find the location of this word meaning transformation, we investigate representations of polysemous words in the basic BERT uncased 12 layer architecture (Devlin et al., 2018), a masked language model trained on an additional sentence adjacency objective, using qualitative and quantitative measures.
arxiv情報
| 著者 | Soniya Vijayakumar,Tanja Bäumel,Simon Ostermann,Josef van Genabith |
| 発行日 | 2023-12-11 16:39:52+00:00 |
| arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google