Reconsidering Token Embeddings with the Definitions for Pre-trained Language Models

要約

自然言語処理において、トークンの共起統計量に基づくトークン埋め込み学習は、事前学習と微調整の両方に有効であることが証明されている。しかし、最近の研究では、学習された埋め込み値の分布が異方性に縮退し、事前学習された言語モデル(PLM)であっても、低頻度のトークンの埋め込み値において意味関連情報の損失に悩まされることが指摘されている。本研究では、まずPLMであるBART-largeの微調整ダイナミクスを解析し、その退化に対する頑健性を示す。この知見に基づき、我々は定義を利用することで、微調整時のロバスト性を維持しつつ、等方的に分散した意味関連トークン埋め込みをPLMに対して構築する手法であるDefinitionEMBを提案する。我々の実験では、RoBERTa-baseとBART-largeに対して、Wiktionaryの定義を活用してこのような埋め込みを構築することの有効性を実証した。さらに、低頻度トークンの埋め込みを構築することで、様々なGLUEと4つのテキスト要約データセットにおいて、これらのモデルの性能が向上した。

要約(オリジナル)

Learning token embeddings based on token co-occurrence statistics has proven effective for both pre-training and fine-tuning in natural language processing. However, recent studies have pointed out the distribution of learned embeddings degenerates into anisotropy, and even pre-trained language models (PLMs) suffer from a loss of semantics-related information in embeddings for low-frequency tokens. This study first analyzes fine-tuning dynamics of a PLM, BART-large, and demonstrates its robustness against degeneration. On the basis of this finding, we propose DefinitionEMB, a method that utilizes definitions to construct isotropically distributed and semantics-related token embeddings for PLMs while maintaining original robustness during fine-tuning. Our experiments demonstrate the effectiveness of leveraging definitions from Wiktionary to construct such embeddings for RoBERTa-base and BART-large. Furthermore, the constructed embeddings for low-frequency tokens improve the performance of these models across various GLUE and four text summarization datasets.

arxiv情報

著者 Ying Zhang,Dongyuan Li,Manabu Okumura
発行日 2024-08-02 15:00:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL パーマリンク