How Powerful are Decoder-Only Transformer Neural Models?

要約

この記事では、現代の大規模言語モデル (LLM) を支える一般的なトランスフォーマー ニューラル モデルが、合理的な仮定の下でチューリング完全であることを証明します。
過去の研究ではより表現力豊かなフルオートエンコーダトランスフォーマアーキテクチャに焦点を当ててきたため、これは GPT-x で採用されている基盤技術のチューリング完全性に直接取り組んだ最初の研究です。
この理論的分析から、単語埋め込みのスパース性/圧縮性がチューリング完全性を維持するための重要な考慮事項であることを示します。
また、トランスフォーマーは Hao Wang によって研究された B マシンの亜種であることも示します。

要約(オリジナル)

In this article we prove that the general transformer neural model undergirding modern large language models (LLMs) is Turing complete under reasonable assumptions. This is the first work to directly address the Turing completeness of the underlying technology employed in GPT-x as past work has focused on the more expressive, full auto-encoder transformer architecture. From this theoretical analysis, we show that the sparsity/compressibility of the word embedding is an important consideration for Turing completeness to hold. We also show that Transformers are are a variant of B machines studied by Hao Wang.

arxiv情報

著者 Jesse Roberts
発行日 2024-10-10 15:51:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク