Tokenisation is NP-Complete

要約

この研究では、語彙を直接見つけるか (直接トークン化)、または一連のマージ操作を選択することによって、データセットを最大 $\delta$ シンボルに圧縮する問題として定義されるトークン化の 2 つの変形の NP 完全性を証明します。
(ボトムアップのトークン化)。

要約(オリジナル)

In this work, we prove the NP-completeness of two variants of tokenisation, defined as the problem of compressing a dataset to at most $\delta$ symbols by either finding a vocabulary directly (direct tokenisation), or selecting a sequence of merge operations (bottom-up tokenisation).

arxiv情報

著者 Philip Whittington,Gregor Bachmann,Tiago Pimentel
発行日 2024-12-19 18:59:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.DS, cs.FL パーマリンク