On the Computational Power of Decoder-Only Transformer Language Models

要約

この記事では、デコーダのみのトランスフォーマ モデルの計算上の普遍性の理論的評価を示します。
我々は、トランスモデルに関する理論的文献を拡張し、デコーダのみのトランスフォーマアーキテクチャ(単一層と単一アテンションヘッドのみを備えた場合でも)が合理的な仮定の下でチューリング完全であることを示します。
理論的分析から、単語埋め込みのスパース性/圧縮性がチューリング完全性が維持されるための必要条件であることを示します。

要約(オリジナル)

This article presents a theoretical evaluation of the computational universality of decoder-only transformer models. We extend the theoretical literature on transformer models and show that decoder-only transformer architectures (even with only a single layer and single attention head) are Turing complete under reasonable assumptions. From the theoretical analysis, we show sparsity/compressibility of the word embedding to be a necessary condition for Turing completeness to hold.

arxiv情報

著者 Jesse Roberts
発行日 2023-05-26 15:35:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク