Two Counterexamples to \textit{Tokenization and the Noiseless Channel}

要約

\textit{トークン化とノイズレス チャネル} \cite{zouhar-etal-2023-tokenization} では、トークナイザーを評価するための固有のメカニズムとして R\’enyi 効率が提案されています。NLP タスクの場合、最高の R をもたらすトークナイザーです。
ユニグラム分布の効率を考慮して選択する必要があります。
したがって、R\’enyi 効率は、異なるトークナイザーを使用して複数のモデルをトレーニングするという高価な手順を必要とせずに、下流のパフォーマンスの予測子として扱われます (機械翻訳タスクの BLEU の予測など)。
便利ではありますが、この指標の予測力は完璧ではなく、優れたトークン化スキームには R\’enyi の効率だけでは捉えられない追加の性質があると著者らは指摘しています。
ダウンストリーム モデルのパフォーマンスを低下させながら R\’enyi 効率を任意に向上させることができる BPE トークン化の 2 つのバリエーションについて説明します。
これらの反例は、R\’enyi 効率が固有のトークン化メトリックとして失敗するケースを明らかにし、より正確な予測子を構築するための洞察を与えます。

要約(オリジナル)

In \textit{Tokenization and the Noiseless Channel} \cite{zouhar-etal-2023-tokenization}, R\’enyi efficiency is suggested as an intrinsic mechanism for evaluating a tokenizer: for NLP tasks, the tokenizer which leads to the highest R\’enyi efficiency of the unigram distribution should be chosen. The R\’enyi efficiency is thus treated as a predictor of downstream performance (e.g., predicting BLEU for a machine translation task), without the expensive step of training multiple models with different tokenizers. Although useful, the predictive power of this metric is not perfect, and the authors note there are additional qualities of a good tokenization scheme that R\’enyi efficiency alone cannot capture. We describe two variants of BPE tokenization which can arbitrarily increase R\’enyi efficiency while decreasing the downstream model performance. These counterexamples expose cases where R\’enyi efficiency fails as an intrinsic tokenization metric and thus give insight for building more accurate predictors.

arxiv情報

著者 Marco Cognetta,Vilém Zouhar,Sangwhan Moon,Naoaki Okazaki
発行日 2024-02-22 15:03:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク