Introduction to Transformers: an NLP Perspective

要約

トランスフォーマーは、自然言語処理の経験的機械学習モデルを支配してきました。
このペーパーでは、トランスフォーマーの基本概念を紹介し、これらのモデルの最近の進歩を形成する主要なテクニックを紹介します。
これには、標準の Transformer アーキテクチャ、一連のモデルの改良、および一般的なアプリケーションの説明が含まれます。
Transformers と関連する深層学習技術がこれまでに見たことのない形で進化している可能性があることを考えると、モデルの詳細をすべて掘り下げたり、すべての技術領域をカバーしたりすることはできません。
代わりに、トランスフォーマーとそのバリアントをよく理解するのに役立つ概念だけに焦点を当てます。
また、この分野に影響を与える主要なアイデアを要約することで、これらのモデルの長所と限界についての洞察を得ることができます。

要約(オリジナル)

Transformers have dominated empirical machine learning models of natural language processing. In this paper, we introduce basic concepts of Transformers and present key techniques that form the recent advances of these models. This includes a description of the standard Transformer architecture, a series of model refinements, and common applications. Given that Transformers and related deep learning techniques might be evolving in ways we have never seen, we cannot dive into all the model details or cover all the technical areas. Instead, we focus on just those concepts that are helpful for gaining a good understanding of Transformers and their variants. We also summarize the key ideas that impact this field, thereby yielding some insights into the strengths and limitations of these models.

arxiv情報

著者 Tong Xiao,Jingbo Zhu
発行日 2023-11-29 13:51:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク