A mathematical perspective on Transformers

要約

トランスフォーマーは、大規模な言語モデルの内部動作において中心的な役割を果たします。
私たちは、相互作用する粒子システムとしてのトランスフォーマーの解釈に基づいてトランスフォーマーを分析するための数学的枠組みを開発します。これにより、クラスターが長い時間をかけて出現することが明らかになります。
私たちの研究は、基礎となる理論を探求し、数学者だけでなくコンピューター科学者にも新しい視点を提供します。

要約(オリジナル)

Transformers play a central role in the inner workings of large language models. We develop a mathematical framework for analyzing Transformers based on their interpretation as interacting particle systems, which reveals that clusters emerge in long time. Our study explores the underlying theory and offers new perspectives for mathematicians as well as computer scientists.

arxiv情報

著者 Borjan Geshkovski,Cyril Letrouit,Yury Polyanskiy,Philippe Rigollet
発行日 2023-12-22 12:47:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, math.AP, math.DS パーマリンク