A Formal Perspective on Byte-Pair Encoding

要約

バイト ペア エンコーディング (BPE) は、当初は圧縮方法として考案されたにもかかわらず、NLP でデータをトークン化するために使用される一般的なアルゴリズムです。
BPE は額面どおり貪欲なアルゴリズムのように見えますが、BPE が解決しようとしている根本的な最適化問題はまだ明らかにされていません。
BPE を組み合わせ最適化問題として形式化します。
サブモジュール関数を介して、反復貪欲バージョンが $\frac{1}{{\sigma(\boldsymbol{\mu}^\star)}}(1-e^{-{\sigma(\boldsymbol{
\mu}^\star)}})$-最適なマージ シーケンスの近似。${\sigma(\boldsymbol{\mu}^\star)}$ は、最適なマージ シーケンス $ に対する合計後方曲率です。
\boldsymbol{\mu}^\star$。
経験的に、近似の下限は $\およそ 0.37$ です。
BPE の高速実装を提供し、実行時の複雑さを $\mathcal{O}\left(N M\right)$ から $\mathcal{O}\left(N \log M\right)$ に改善します。ここで、$N$
はシーケンスの長さ、$M$ はマージ数です。
最後に、メモ化を使用して最適な BPE を実現するためにブルート フォース アルゴリズムを最適化します。

要約(オリジナル)

Byte-Pair Encoding (BPE) is a popular algorithm used for tokenizing data in NLP, despite being devised initially as a compression method. BPE appears to be a greedy algorithm at face value, but the underlying optimization problem that BPE seeks to solve has not yet been laid down. We formalize BPE as a combinatorial optimization problem. Via submodular functions, we prove that the iterative greedy version is a $\frac{1}{{\sigma(\boldsymbol{\mu}^\star)}}(1-e^{-{\sigma(\boldsymbol{\mu}^\star)}})$-approximation of an optimal merge sequence, where ${\sigma(\boldsymbol{\mu}^\star)}$ is the total backward curvature with respect to the optimal merge sequence $\boldsymbol{\mu}^\star$. Empirically the lower bound of the approximation is $\approx 0.37$. We provide a faster implementation of BPE which improves the runtime complexity from $\mathcal{O}\left(N M\right)$ to $\mathcal{O}\left(N \log M\right)$, where $N$ is the sequence length and $M$ is the merge count. Finally, we optimize the brute-force algorithm for optimal BPE using memoization.

arxiv情報

著者 Vilém Zouhar,Clara Meister,Juan Luis Gastaldi,Li Du,Tim Vieira,Mrinmaya Sachan,Ryan Cotterell
発行日 2023-06-29 10:29:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, math.OC パーマリンク