MorphPiece : Moving away from Statistical Language Representation

要約

トークン化は、最新の NLP パイプラインの重要な部分です。
ただし、大規模言語モデルの現代のトークナイザーは、言語的特徴をあまり考慮せず、テキスト コーパスの統計分析に基づいています。
我々は、言語学的に動機付けられたトークン化スキーム MorphPiece を提案します。これは、基礎となるテキストの形態学的セグメンテーションに部分的に基づいています。
このトークナイザー (MorphGPT と呼ばれる) でトレーニングされた GPT スタイルの因果言語モデルは、標準の BPE トークナイザーでトレーニングされた同じアーキテクチャと比較して優れた収束を示します。
具体的には、6 倍大きいモデルに匹敵する言語モデリングのパフォーマンスが得られます。
さらに、教師ありおよび教師なし設定のさまざまな NLP タスクで MorphGPT を評価し、GPT-2 モデルと比較して全体的に優れたパフォーマンスを発見しました。

要約(オリジナル)

Tokenization is a critical part of modern NLP pipelines. However, contemporary tokenizers for Large Language Models are based on statistical analysis of text corpora, without much consideration to the linguistic features. We propose a linguistically motivated tokenization scheme, MorphPiece, which is based partly on morphological segmentation of the underlying text. A GPT-style causal language model trained on this tokenizer (called MorphGPT) shows superior convergence compared to the same architecture trained on a standard BPE tokenizer. Specifically we get Language Modeling performance comparable to a 6 times larger model. Additionally, we evaluate MorphGPT on a variety of NLP tasks in supervised and unsupervised settings and find superior performance across the board, compared to GPT-2 model.

arxiv情報

著者 Haris Jabbar
発行日 2023-07-14 10:35:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク