Length Extrapolation of Transformers: A Survey from the Perspective of Position Encoding

要約

Transformer は、シーケンス内の複雑な依存関係をモデル化する優れた能力により、誕生以来、自然言語処理 (NLP) 分野を席巻してきました。
Transformer に基づく事前トレーニング済み言語モデル (PLM) はほぼすべての NLP タスクで大きな成功を収めていますが、それらはすべて事前に設定された長さの制限に悩まされているため、この成功を目に見えるデータを超える長いシーケンス、つまり長さの外挿問題に拡張することはほとんどできません。
長さの外挿は人間の言語能力の中核的な機能であるため、研究者の間で大きな関心を集めています。
トランスフォーマーの長さの外挿を強化するために、主に外挿可能な位置エンコーディングに焦点を当てた多数の方法が提案されています。
この記事では、読者が既存の手法を深く理解し、将来の研究への刺激を提供できるようにすることを目的として、位置エンコーディングの観点から統一された表記法でこれらの研究活動を組織的かつ系統的にレビューします。

要約(オリジナル)

Transformer has taken the natural language processing (NLP) field by storm since birth, owing to its superior ability to model complex dependencies in sequences. Despite the great success of pretrained language models (PLMs) based on Transformer across almost all NLP tasks, they all suffer from a preset length limit and thus can hardly extend this success to longer sequences beyond seen data, namely the length extrapolation problem. Length extrapolation has aroused great interest among researchers, as it is the core feature of human language capacity. To enhance length extrapolation of Transformers, a plethora of methods have been proposed, mostly focusing on extrapolatable position encodings. In this article, we provide an organized and systematical review of these research efforts in a unified notation from a position encoding perspective, aiming to enable the reader to gain a deep understanding of existing methods and provide stimuli for future research.

arxiv情報

著者 Liang Zhao,Xiaocheng Feng,Xiachong Feng,Bin Qin,Ting Liu
発行日 2023-12-28 14:42:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク