An Introduction to Transformers

要約

タイトル「Transformerの紹介」要約

Transformerは、データポイントのシーケンスまたはセットの有用な表現を学ぶために使用できるニューラルネットワークコンポーネントです。Transformerは、自然言語処理、コンピュータビジョン、時間空間モデリングの最近の進歩の驅動力となっています。Transformerについての紹介は多数ありますが、ほとんどはアーキテクチャーの正確な数学的説明を含んでおらず、設計の背後にある直感もしばしば欠けています。さらに、研究が迂回すると、Transformerのコンポーネントの説明は特殊なものになることがあります。本ノートでは、Transformerアーキテクチャーの数学的に正確で直感的できれいな説明を目指しています。

要点:
– Transformerはシーケンス/セットデータの表現を学ぶためのニューラルネットワークコンポーネント
– 自然言語処理、コンピュータビジョン、時間空間モデリングに最近の進歩に貢献
– Transformerの紹介は多数あり、数学的説明や背後にある直感が欠けていることが多い
– 研究が迂回すると、Transformerのコンポーネントの説明は特殊なものになることがある
– 本ノートはTransformerアーキテクチャーの数学的に正確で直感的できれいな説明を目指す

要約(オリジナル)

The transformer is a neural network component that can be used to learn useful representations of sequences or sets of datapoints. The transformer has driven recent advances in natural language processing, computer vision, and spatio-temporal modelling. There are many introductions to transformers, but most do not contain precise mathematical descriptions of the architecture and the intuitions behind the design choices are often also missing. Moreover, as research takes a winding path, the explanations for the components of the transformer can be idiosyncratic. In this note we aim for a mathematically precise, intuitive, and clean description of the transformer architecture.

arxiv情報

著者 Richard E. Turner
発行日 2023-04-20 14:54:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.AI, cs.LG パーマリンク