Counting Ability of Large Language Models and Impact of Tokenization

要約

最新の大規模言語モデル (LLM) のバックボーンであるトランスフォーマーは、推論機能を妨げる固有のアーキテクチャ上の制限に直面しています。
リカレント ネットワークとは異なり、Transformer にはリカレント接続がなく、一定の深さの計算に限定されます。
この制限により、それらは複雑さのクラス TC$^0$ に分類され、理論的には、入力の長さが増大するにつれてより深い推論を必要とするタスクを解決できなくなります。
多くの推論タスクの基本的なコンポーネントであるカウンティングも、帰納的に実行されるように推論の深さを直線的に増加させる必要があります。
これまでの研究では、Transformer ベースのエキスパート モデル (つまり、計数タスク用に特別にトレーニングされたモデル) の計数能力の上限が確立されていますが、推論メカニズムの違いにより、これらの発見は汎用 LLM には直接適用されません。
最近の研究では、思考連鎖 (CoT) 推論が、計数タスクにおける Transformer のアーキテクチャ上の制限の一部を軽減するのにどのように役立つかが明らかになりました。
ただし、これらのモデルにおけるトークン化の役割にはほとんど注目されていません。
文字レベルのトークン化をよく使用するエキスパート モデルとは異なり、LLM は通常、推論の処理方法を根本的に変えるバイト レベル (BPE) のトークナイザーに依存します。
私たちの研究では、LLM の計数能力に対するトークン化の影響を調査し、入力トークン化の違いに基づく大幅なパフォーマンスの変動を明らかにしました。
私たちは理論的分析と実験的分析の両方を提供し、トークン化の選択がモデルの理論的な計算可能性をどのように損なう可能性があるかについての洞察を提供します。これにより、LLM での推論を強化するための新しいトークン化手法の設計が刺激されます。

要約(オリジナル)

Transformers, the backbone of modern large language models (LLMs), face inherent architectural limitations that impede their reasoning capabilities. Unlike recurrent networks, Transformers lack recurrent connections, confining them to constant-depth computation. This restriction places them in the complexity class TC$^0$, making them theoretically incapable of solving tasks that demand increasingly deep reasoning as input length grows. Counting, a fundamental component of many reasoning tasks, also requires reasoning depth to grow linearly to be performed inductively. While previous studies have established the upper limits of counting ability in Transformer-based expert models (i.e., models specifically trained for counting tasks), these findings do not directly extend to general-purpose LLMs due to differences in reasoning mechanisms. Recent work has highlighted how Chain of Thought (CoT) reasoning can help alleviate some of the architectural limitations of Transformers in counting tasks. However, little attention has been paid to the role of tokenization in these models. Unlike expert models that often use character-level tokenization, LLMs typically rely on byte-level (BPE) tokenizers, which fundamentally alters the way reasoning is processed. Our work investigates the impact of tokenization on the counting abilities of LLMs, uncovering substantial performance variations based on input tokenization differences. We provide both theoretical and experimental analyses, offering insights into how tokenization choices can undermine models’ theoretical computability, thereby inspiring the design of new tokenization methods to enhance reasoning in LLMs.

arxiv情報

著者 Xiang Zhang,Juntai Cao,Chenyu You
発行日 2024-10-25 17:56:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク