要約
この記事では、デコーダのみのトランスフォーマ モデルの計算上の普遍性の理論的評価を示します。
我々は、トランスモデルに関する理論的文献を拡張し、デコーダのみのトランスフォーマアーキテクチャ(単一層と単一アテンションヘッドのみを備えた場合でも)が合理的な仮定の下でチューリング完全であることを示します。
理論的分析から、単語埋め込みのスパース性/圧縮性がチューリング完全性が維持されるための必要条件であることを示します。
要約(オリジナル)
This article presents a theoretical evaluation of the computational universality of decoder-only transformer models. We extend the theoretical literature on transformer models and show that decoder-only transformer architectures (even with only a single layer and single attention head) are Turing complete under reasonable assumptions. From the theoretical analysis, we show sparsity/compressibility of the word embedding to be a necessary condition for Turing completeness to hold.
arxiv情報
著者 | Jesse Roberts |
発行日 | 2023-05-26 15:35:43+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google