要約
この研究では、語彙を直接見つけるか (直接トークン化)、または一連のマージ操作を選択することによって、データセットを最大 $\delta$ シンボルに圧縮する問題として定義されるトークン化の 2 つの変形の NP 完全性を証明します。
(ボトムアップのトークン化)。
要約(オリジナル)
In this work, we prove the NP-completeness of two variants of tokenisation, defined as the problem of compressing a dataset to at most $\delta$ symbols by either finding a vocabulary directly (direct tokenisation), or selecting a sequence of merge operations (bottom-up tokenisation).
arxiv情報
著者 | Philip Whittington,Gregor Bachmann,Tiago Pimentel |
発行日 | 2024-12-19 18:59:46+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google