Greed is All You Need: An Evaluation of Tokenizer Inference Methods

要約

BPEやWordPieceのようなサブワード・トークナイザーは通常、NLPモデルの語彙を構築するために使用されるが、これらの語彙からトークンのシーケンスにテキストをデコードする方法は、多くの場合、不特定またはそれらが構築された方法に適していないまま残されている。我々は、4つの異なるアルゴリズムと3つの語彙サイズにまたがる7つのトークナイザ推論メソッドについて、形態論、認知、情報理論に根ざした尺度を組み合わせた、我々が英語用に作成した新しい固有評価スイート上で実施した対照分析を提供する。その結果、最もよく使われるトークナイザでは、貪欲な推論が驚くほど良い結果を示すこと、また、最近導入された文脈情報に基づくトークナイザであるSaGeが、形態素アライメントにおいて他を凌駕することを示す。

要約(オリジナル)

While subword tokenizers such as BPE and WordPiece are typically used to build vocabularies for NLP models, the method of decoding text into a sequence of tokens from these vocabularies is often left unspecified, or ill-suited to the method in which they were constructed. We provide a controlled analysis of seven tokenizer inference methods across four different algorithms and three vocabulary sizes, performed on a novel intrinsic evaluation suite we curated for English, combining measures rooted in morphology, cognition, and information theory. We show that for the most commonly used tokenizers, greedy inference performs surprisingly well; and that SaGe, a recently-introduced contextually-informed tokenizer, outperforms all others on morphological alignment.

arxiv情報

著者 Omri Uzan,Craig W. Schmidt,Chris Tanner,Yuval Pinter
発行日 2024-03-02 19:01:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL パーマリンク