What Formal Languages Can Transformers Express? A Survey

要約

自然言語処理においてトランスフォーマーが注目を集めるようになり、一部の研究者は、問題を形式言語として扱うことによって、トランスフォーマーでどのような問題が解決でき、どのような問題が解決できないのかを理論的に調査しました。
このような疑問を探ることは、他の計算モデルと比較したトランスフォーマーの能力、トランスフォーマーの基本的な機能と限界、アーキテクチャ上の選択の影響を明らかにするのに役立ちます。
このサブエリアでの研究は近年大幅に進歩しました。
ここでは、この研究の包括的な調査を実施し、さまざまな結果の基礎となる多様な仮定を文書化し、一見矛盾する発見を調和させるための統一されたフレームワークを提供します。

要約(オリジナル)

As transformers have gained prominence in natural language processing, some researchers have investigated theoretically what problems they can and cannot solve, by treating problems as formal languages. Exploring such questions can help clarify the power of transformers relative to other models of computation, their fundamental capabilities and limits, and the impact of architectural choices. Work in this subarea has made considerable progress in recent years. Here, we undertake a comprehensive survey of this work, documenting the diverse assumptions that underlie different results and providing a unified framework for harmonizing seemingly contradictory findings.

arxiv情報

著者 Lena Strobl,William Merrill,Gail Weiss,David Chiang,Dana Angluin
発行日 2024-09-04 11:48:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.FL, cs.LG, cs.LO パーマリンク