Semantic Tokenizer for Enhanced Natural Language Processing

要約

タイトル:拡張自然言語処理のための意味的トークナイザー
要約:
– 従来、NLPのパフォーマンス向上はモデルの改善とモデルパラメータの増加に焦点が置かれていました。
– 一方、NLP語彙構築は、サブワード正則化によって表される単語数を最大化することに重点が置かれてきました。
– この論文では、語彙構築に意味を用いる新しいトークナイザーを提案しています。
– トークナイザーには、ステミングを使ってサブワードの形成を改善するトレーナーが含まれています。
– 非エンコード可能な単語数を最小化するために、さらなる最適化と適応が実装されています。
– エンコーダーはトレーナーと統合されるよう更新されました。
– このトークナイザーは、SentencePieceトークナイザーの代替として実装されています。
– 新しいトークナイザーは、語彙構築で表現された単語形式の数を2倍以上に増やします。
– 拡張された語彙は、NLPモデルの収束性を大幅に向上させ、単語および文の埋め込みの品質を向上させます。
– 実験結果は、BERT-baseを使用した2つのGlueタスクで最高のパフォーマンスを示し、サイズが50倍以上も大きなモデルよりも優れた性能を発揮しました。

要約(オリジナル)

Traditionally, NLP performance improvement has been focused on improving models and increasing the number of model parameters. NLP vocabulary construction has remained focused on maximizing the number of words represented through subword regularization. We present a novel tokenizer that uses semantics to drive vocabulary construction. The tokenizer includes a trainer that uses stemming to enhance subword formation. Further optimizations and adaptations are implemented to minimize the number of words that cannot be encoded. The encoder is updated to integrate with the trainer. The tokenizer is implemented as a drop-in replacement for the SentencePiece tokenizer. The new tokenizer more than doubles the number of wordforms represented in the vocabulary. The enhanced vocabulary significantly improves NLP model convergence, and improves quality of word and sentence embeddings. Our experimental results show top performance on two Glue tasks using BERT-base, improving on models more than 50X in size.

arxiv情報

著者 Sandeep Mehta,Darpan Shah,Ravindra Kulkarni,Cornelia Caragea
発行日 2023-04-24 19:33:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CL パーマリンク