Word Boundary Information Isn’t Useful for Encoder Language Models

要約

サブワードトークン化アルゴリズムを使用した NLP への既存のトランスフォーマーベースのアプローチはすべて、トークンの一部を形成する特殊なスペース記号 (\#\# や \_ など) を使用して空白 (単語境界情報) をエンコードします。
これらの記号は、a) トークン化の形態学的妥当性の低下につながり、b) かなりの語彙の冗長性を与えることが示されています。
したがって、これらのシンボルを削除すると、プリトレイン・ファインチューン・パラダイムにおけるトランスフォーマー・エンコーダの形態学的に複雑な単語の処理に有益な効果があることが示されています。
この研究では、単語境界情報がそのようなモデルに役立つかどうかを調査します。
特に、4 つの異なるトレーニング スケールでトランスフォーマー エンコーダをトレーニングし、単語境界情報を含めて、さまざまなドメインおよび問題設定にわたるさまざまなタスクを評価するためのいくつかの代替アプローチを調査します。 GLUE (文レベルの分類用)、NER (
トークンレベル分類用)、および複雑な単語を含む 2 つの分類データセット(Superbizarre と FLOTA)。
全体として、29 のモデルの事前トレーニングを含む広範な実験セットアップを通じて、代替アプローチからの大幅な改善は見つかりませんでした。これは、単語境界情報を削除するためにトークナイザーを変更しても、有用な情報の損失にはつながらないことを示唆しています。

要約(オリジナル)

All existing transformer-based approaches to NLP using subword tokenisation algorithms encode whitespace (word boundary information) through the use of special space symbols (such as \#\# or \_) forming part of tokens. These symbols have been shown to a) lead to reduced morphological validity of tokenisations, and b) give substantial vocabulary redundancy. As such, removing these symbols has been shown to have a beneficial effect on the processing of morphologically complex words for transformer encoders in the pretrain-finetune paradigm. In this work, we explore whether word boundary information is at all useful to such models. In particular, we train transformer encoders across four different training scales, and investigate several alternative approaches to including word boundary information, evaluating on a range of tasks across different domains and problem set-ups: GLUE (for sentence-level classification), NER (for token-level classification), and two classification datasets involving complex words (Superbizarre and FLOTA). Overall, through an extensive experimental setup that includes the pre-training of 29 models, we find no substantial improvements from our alternative approaches, suggesting that modifying tokenisers to remove word boundary information isn’t leading to a loss of useful information.

arxiv情報

著者 Edward Gow-Smith,Dylan Phelps,Harish Tayyar Madabushi,Carolina Scarton,Aline Villavicencio
発行日 2024-01-15 19:21:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク