An Introduction to Transformers

要約

トランスフォーマーは、シーケンスまたはデータポイントのセットの有用な表現を学習するために使用できるニューラル ネットワーク コンポーネントです。
トランスフォーマーは、自然言語処理、コンピューター ビジョン、時空間モデリングの最近の進歩を推進しました。
変圧器の入門書は数多くありますが、そのほとんどにはアーキテクチャの正確な数学的説明が含まれておらず、設計選択の背後にある直観も欠けていることがよくあります。
さらに、研究は曲がりくねった道をたどるため、変圧器のコンポーネントの説明が独特になる可能性があります。
このノートでは、変圧器のアーキテクチャを数学的に正確、直観的かつ明確に説明することを目指しています。
これは標準的なものであるため、トレーニングについては説明しません。
読者は、多層パーセプトロン、線形変換、ソフトマックス関数、基本的な確率など、機械学習の基本的なトピックに精通していることを前提としています。

要約(オリジナル)

The transformer is a neural network component that can be used to learn useful representations of sequences or sets of data-points. The transformer has driven recent advances in natural language processing, computer vision, and spatio-temporal modelling. There are many introductions to transformers, but most do not contain precise mathematical descriptions of the architecture and the intuitions behind the design choices are often also missing. Moreover, as research takes a winding path, the explanations for the components of the transformer can be idiosyncratic. In this note we aim for a mathematically precise, intuitive, and clean description of the transformer architecture. We will not discuss training as this is rather standard. We assume that the reader is familiar with fundamental topics in machine learning including multi-layer perceptrons, linear transformations, softmax functions and basic probability.

arxiv情報

著者 Richard E. Turner
発行日 2023-10-19 15:52:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク