Do Efficient Transformers Really Save Computation?

要約

Transformer ベースの言語モデルはますます大規模なデータセットと膨大な数のパラメーターでトレーニングされるため、標準の Transformer に代わるより効率的な代替手段を見つけることが非常に重要になってきています。
効率的なトランスフォーマーやトランスフォーマーの代替品が数多く提案されていますが、標準的なトランスフォーマーの適切な代替品であることを理論的に保証するものはありません。
このため、特定のモデルをいつ使用するか、およびさらなる調査のためにどの方向を優先するかを特定することが困難になります。
このペーパーでは、効率的なトランスフォーマー、特にスパース トランスフォーマーと線形トランスフォーマーの機能と制限を理解することを目的としています。
私たちは、思考連鎖 (CoT) プロンプトによって示される推論能力に焦点を当て、以前の研究に従ってそれらを動的プログラミング (DP) 問題としてモデル化します。
私たちの結果は、予想に反して、これらのモデルは一般的な DP タスクを解決するのに十分な表現力を備えていますが、問題のサイズに合わせて拡張するモデル サイズを必要とすることを示しています。
それにもかかわらず、これらのモデルが標準の Transformer より効率的である可能性がある DP 問題のクラスを特定します。
代表的な DP タスクの実験を通じて理論的結果を確認し、効率的なトランスフォーマーの実際的な長所と短所の理解を深めます。

要約(オリジナル)

As transformer-based language models are trained on increasingly large datasets and with vast numbers of parameters, finding more efficient alternatives to the standard Transformer has become very valuable. While many efficient Transformers and Transformer alternatives have been proposed, none provide theoretical guarantees that they are a suitable replacement for the standard Transformer. This makes it challenging to identify when to use a specific model and what directions to prioritize for further investigation. In this paper, we aim to understand the capabilities and limitations of efficient Transformers, specifically the Sparse Transformer and the Linear Transformer. We focus on their reasoning capability as exhibited by Chain-of-Thought (CoT) prompts and follow previous works to model them as Dynamic Programming (DP) problems. Our results show that while these models are expressive enough to solve general DP tasks, contrary to expectations, they require a model size that scales with the problem size. Nonetheless, we identify a class of DP problems for which these models can be more efficient than the standard Transformer. We confirm our theoretical results through experiments on representative DP tasks, adding to the understanding of efficient Transformers’ practical strengths and weaknesses.

arxiv情報

著者 Kai Yang,Jan Ackermann,Zhenyu He,Guhao Feng,Bohang Zhang,Yunzhen Feng,Qiwei Ye,Di He,Liwei Wang
発行日 2024-02-21 17:00:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG, stat.ML パーマリンク