Theoretical Analysis of Byte-Pair Encoding

要約

バイト ペア エンコーディング (BPE) は、文法ベースのテキスト圧縮に起源を持ち、サブワードのトークン化に広く使用されている方法です。
これは、機械翻訳や大規模言語モデル (LLM) の事前トレーニングなど、さまざまな言語処理タスクで使用され、所定のサイズのトークン辞書を作成します。
これまでの BPE の評価のほとんどは経験に基づくものであり、その優れた実際的なパフォーマンスの理由はよく理解されていません。
この論文では、BPE の基礎となる最適化問題、つまり最適な圧縮ユーティリティを実現するペアのエンコーディングを見つけることに焦点を当てます。
我々は、この問題が APX 完全であることを示し、多項式時間近似スキームが許容される可能性が低いことを示しています。
これは、Zouhar らによって最近提起された質問に、より強力な形で答えています。
良い点としては、BPE が最適なペア エンコードの圧縮ユーティリティを $0.333$ から $0.625$ の間の最悪の場合の係数に近似していることがわかります。
私たちの結果は、BPE の継続的な成功を説明することを目的としており、私たちの知る限り、すべての入力に対して適用される圧縮ユーティリティの厳密な保証は初めてです。

要約(オリジナル)

Byte-Pair Encoding (BPE) is a widely used method for subword tokenization, with origins in grammar-based text compression. It is employed in a variety of language processing tasks such as machine translation or large language model (LLM) pretraining, to create a token dictionary of a prescribed size. Most evaluations of BPE to date are empirical, and the reasons for its good practical performance are not well understood. In this paper we focus on the optimization problem underlying BPE: finding a pair encoding that achieves optimal compression utility. We show that this problem is APX-complete, indicating that it is unlikely to admit a polynomial-time approximation scheme. This answers, in a stronger form, a question recently raised by Zouhar et al. On the positive side, we show that BPE approximates the compression utility of the optimal pair encoding to a worst-case factor between $0.333$ and $0.625$. Our results aim to explain the ongoing success of BPE and are, to our knowledge, the first rigorous guarantees on its compression utility that hold for all inputs.

arxiv情報

著者 László Kozma,Johannes Voderholzer
発行日 2024-11-13 15:04:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.DS パーマリンク