Constructing a BPE Tokenization DFA

要約

多くの自然言語処理システムは、オープン語彙の問題に対処するために、テキストのトークン化を介して動作します。
この論文では、一般的なバイト ペア エンコード技術によって生成されたトークン化を直接操作するように設計された決定論的有限オートマトンを効率的に構築するためのアルゴリズムを提供し、分析します。
これにより、パターン マッチング、トークン化辞書の等価性チェック、さまざまな方法でのトークン化言語の作成など、多くの既存の技術やアルゴリズムをトークン化のケースに適用することが可能になります。

要約(オリジナル)

Many natural language processing systems operate over tokenizations of text to address the open-vocabulary problem. In this paper, we give and analyze an algorithm for the efficient construction of deterministic finite automata designed to operate directly on tokenizations produced by the popular byte pair encoding technique. This makes it possible to apply many existing techniques and algorithms to the tokenized case, such as pattern matching, equivalence checking of tokenization dictionaries, and composing tokenized languages in various ways.

arxiv情報

著者 Martin Berglund,Willeke Martens,Brink van der Merwe
発行日 2024-05-13 11:59:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.FL, cs.LG パーマリンク