On the Representational Capacity of Neural Language Models with Chain-of-Thought Reasoning

要約

最新言語モデル (LM) のパフォーマンスは、思考連鎖 (CoT) 推論、つまり、モデルを最終的な答えに導く中間結果を生成するプロセスによって向上しました。
この改善の考えられる説明は、追加のスクラッチ スペースを持つ RNN とトランスフォーマーがチューリング完全であることが知られているため、CoT 推論によって LM の計算能力が拡張されるということです。
ただし、LM をチューリング マシンと比較すると、カテゴリー エラーが発生します。チューリング マシンは言語のメンバーシップを決定しますが、LM は文字列の分布を定義します。
このギャップを埋めるために、確率的設定で CoT 推論を形式化します。
我々は、CoT 推論によるリカレント LM とトランスフォーマー LM の表現能力に関するいくつかの結果を提示し、それらが確率的チューリング マシンと同じ系列の分布を文字列上で表現できることを示します。

要約(オリジナル)

The performance of modern language models (LMs) has been improved by chain-of-thought (CoT) reasoning, i.e., the process of generating intermediate results that guide the model towards a final answer. A possible explanation for this improvement is that CoT reasoning extends an LM’s computational power, as RNNs and transformers with additional scratch space are known to be Turing complete. Comparing LMs to Turing machines, however, introduces a category error – Turing machines decide language membership, whereas LMs define distributions over strings. To bridge this gap, we formalize CoT reasoning in a probabilistic setting. We present several results on the representational capacity of recurrent and transformer LMs with CoT reasoning, showing that they can represent the same family of distributions over strings as probabilistic Turing machines.

arxiv情報

著者 Franz Nowak,Anej Svete,Alexandra Butoi,Ryan Cotterell
発行日 2025-01-24 14:40:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.FL パーマリンク