要約
トランスフォーマーは、その自己注意メカニズムで有名であり、自然言語処理、コンピュータビジョン、時系列モデリングなどの様々なタスクにおいて最先端の性能を達成している。しかし、ディープトランスフォーマーモデルの課題の1つは、レイヤーをまたいだ表現が区別できない値に収束し、著しい性能劣化につながるオーバースムージング問題である。我々は、元の自己注意を単純なグラフフィルターと解釈し、グラフ信号処理(GSP)の観点から再設計する。グラフフィルタに基づく自己注意(GFSA)を提案し、一般的かつ効果的な自己注意を学習する。我々は、GFSAが、コンピュータビジョン、自然言語処理、グラフレベルタスク、音声認識、コード分類を含む様々な分野において、Transformerの性能を向上させることを実証する。
要約(オリジナル)
Transformers, renowned for their self-attention mechanism, have achieved state-of-the-art performance across various tasks in natural language processing, computer vision, time-series modeling, etc. However, one of the challenges with deep Transformer models is the oversmoothing problem, where representations across layers converge to indistinguishable values, leading to significant performance degradation. We interpret the original self-attention as a simple graph filter and redesign it from a graph signal processing (GSP) perspective. We propose a graph-filter-based self-attention (GFSA) to learn a general yet effective one, whose complexity, however, is slightly larger than that of the original self-attention mechanism. We demonstrate that GFSA improves the performance of Transformers in various fields, including computer vision, natural language processing, graph-level tasks, speech recognition, and code classification.
arxiv情報
著者 | Jeongwhan Choi,Hyowon Wi,Jayoung Kim,Yehjin Shin,Kookjin Lee,Nathaniel Trask,Noseong Park |
発行日 | 2024-11-01 08:16:52+00:00 |
arxivサイト | arxiv_id(pdf) |