A Formal Perspective on Byte-Pair Encoding

要約

バイト・ペア・エンコード(BPE)は、当初は圧縮法として考案されたにもかかわらず、自然言語処理におけるデータのトークン化によく使われるアルゴリズムである。BPEは一見すると貪欲なアルゴリズムのように見えるが、BPEが解こうとしている根本的な最適化問題はまだ確立されていない。我々はBPEを組合せ最適化問題として定式化する。submodular関数により、反復貪欲版が最適マージ列の$frac{1}{{sigma(≖boldsymbol≖mu}^star)}}(1-e^{-{sigma(≖boldsymbol≖boldsymbol≖mu}^star)}}$-approximation であることを証明する、ここで、${sigma( \boldsymbol{mu}}^star)}$ は最適マージ列${boldsymbol{¥mu}}^star$に対する全後方曲率である。経験的に、近似の下界は$approx 0.37$である。 BPEの高速な実装を提供し、実行複雑度を$mathcal{O}left(N Mright)$から$mathcal{O}left(N \log Mright)$に改善する。最後に、ブルートフォースアルゴリズムをメモ化を用いて最適化する。

要約(オリジナル)

Byte-Pair Encoding (BPE) is a popular algorithm used for tokenizing data in NLP, despite being devised initially as a compression method. BPE appears to be a greedy algorithm at face value, but the underlying optimization problem that BPE seeks to solve has not yet been laid down. We formalize BPE as a combinatorial optimization problem. Via submodular functions, we prove that the iterative greedy version is a $\frac{1}{{\sigma(\boldsymbol{\mu}^\star)}}(1-e^{-{\sigma(\boldsymbol{\mu}^\star)}})$-approximation of an optimal merge sequence, where ${\sigma(\boldsymbol{\mu}^\star)}$ is the total backward curvature with respect to the optimal merge sequence $\boldsymbol{\mu}^\star$. Empirically the lower bound of the approximation is $\approx 0.37$. We provide a faster implementation of BPE which improves the runtime complexity from $\mathcal{O}\left(N M\right)$ to $\mathcal{O}\left(N \log M\right)$, where $N$ is the sequence length and $M$ is the merge count. Finally, we optimize the brute-force algorithm for optimal BPE using memoization.

arxiv情報

著者 Vilém Zouhar,Clara Meister,Juan Luis Gastaldi,Li Du,Tim Vieira,Mrinmaya Sachan,Ryan Cotterell
発行日 2024-09-02 08:33:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL, math.OC パーマリンク