How Powerful are Decoder-Only Transformer Neural Models?

要約

本稿では、現代の大規模言語モデル(LLM)を支える一般的な変換ニューラル・モデルが、合理的な仮定の下でチューリング完全であることを証明する。これは、GPT-xで採用されている基礎技術のチューリング完全性を直接扱った最初の研究であり、過去の研究は、より表現力豊かな完全自動エンコーダ変換器アーキテクチャに焦点を当てていた。この理論的分析から、チューリング完全性が成立するためには、単語埋め込みにおけるスパース性/圧縮性が重要な考慮事項であることを示す。また、トランスフォーマーは、Hao Wangによって研究されたBマシンの一種であることも示す。

要約(オリジナル)

In this article we prove that the general transformer neural model undergirding modern large language models (LLMs) is Turing complete under reasonable assumptions. This is the first work to directly address the Turing completeness of the underlying technology employed in GPT-x as past work has focused on the more expressive, full auto-encoder transformer architecture. From this theoretical analysis, we show that the sparsity/compressibility of the word embedding is an important consideration for Turing completeness to hold. We also show that Transformers are are a variant of B machines studied by Hao Wang.

arxiv情報

著者 Jesse Roberts
発行日 2024-02-02 18:04:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL, cs.LG パーマリンク