要約
Transformer アーキテクチャの最近の進歩により、さまざまなドメインにわたるさまざまなタスクにおける実証的な成功が可能になりました。
しかし、既存の研究は主に予測精度と計算コストに焦点を当てており、汚染されたサンプルに対する堅牢性などの他の実際的な問題は考慮されていません。
Nguyen et al., (2022) による最近の研究では、Transformer アーキテクチャの中心であるセルフアテンション メカニズムが、カーネル密度推定 (KDE) に基づくノンパラメトリック推定器と見なすことができることが示されました。
これにより、データ汚染の問題を軽減するために一連の堅牢なカーネル密度推定方法を活用するようになりました。
具体的には、さまざまな Transformer アーキテクチャに組み込むことができる一連のセルフアテンション メカニズムを紹介し、各メソッドの特別な特性について説明します。
次に、言語モデリングと画像分類タスクに関する広範な実証研究を実行します。
私たちの手法は、クリーンなデータセットで競争力のある結果を維持しながら、複数のシナリオで堅牢なパフォーマンスを実証します。
要約(オリジナル)
Recent advances in Transformer architectures have empowered their empirical success in a variety of tasks across different domains. However, existing works mainly focus on predictive accuracy and computational cost, without considering other practical issues, such as robustness to contaminated samples. Recent work by Nguyen et al., (2022) has shown that the self-attention mechanism, which is the center of the Transformer architecture, can be viewed as a non-parametric estimator based on kernel density estimation (KDE). This motivates us to leverage a set of robust kernel density estimation methods for alleviating the issue of data contamination. Specifically, we introduce a series of self-attention mechanisms that can be incorporated into different Transformer architectures and discuss the special properties of each method. We then perform extensive empirical studies on language modeling and image classification tasks. Our methods demonstrate robust performance in multiple scenarios while maintaining competitive results on clean datasets.
arxiv情報
著者 | Xing Han,Tongzheng Ren,Tan Minh Nguyen,Khai Nguyen,Joydeep Ghosh,Nhat Ho |
発行日 | 2023-11-08 14:50:22+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google